n 慧算生物信息平臺整體解決(jue)方(fang)案
慧算生(sheng)物(wu)為生(sheng)命科(ke)(ke)學相(xiang)關科(ke)(ke)研機構(gou)、基因(yin)測序公司(si)等用戶(hu)提供專業的生(sheng)物(wu)信息平臺(tai)的軟硬件一體化(hua)解(jie)決方(fang)案,目的是為客戶(hu)提供無憂后臺(tai)支撐(cheng),使科(ke)(ke)研工作者和相(xiang)關公司(si)聚焦其核心業務。
該整體解決(jue)方案,是為(wei)客戶(hu)提(ti)(ti)供定制化(hua)的(de)軟(ruan)(ruan)硬件(jian)(jian)系(xi)統集(ji)成服(fu)務,既包括(kuo)(kuo)了服(fu)務器、存儲、網(wang)絡、文(wen)件(jian)(jian)系(xi)統、操作系(xi)統、集(ji)群管理軟(ruan)(ruan)件(jian)(jian)等IT基礎設施;也(ye)包括(kuo)(kuo)了全(quan)基因組(zu)、全(quan)外顯子、轉(zhuan)錄組(zu)等各(ge)種多(duo)樣化(hua)的(de)生物(wu)信息數(shu)據分(fen)析(xi)流(liu)程的(de)搭(da)建(jian);提(ti)(ti)供從軟(ruan)(ruan)件(jian)(jian)到硬件(jian)(jian)的(de)全(quan)系(xi)統維護;提(ti)(ti)供在(zai)云端的(de)“慧算(suan)生物(wu)信息云”服(fu)務;為(wei)復(fu)雜的(de)高級定制數(shu)據分(fen)析(xi)提(ti)(ti)供外包服(fu)務;并依托“慧算(suan)生物(wu)信息學院(yuan)”提(ti)(ti)供集(ji)中式或(huo)定制化(hua)培(pei)訓服(fu)務以及考試(shi)認(ren)證;另外,慧算(suan)還提(ti)(ti)供相關的(de)知(zhi)識庫、數(shu)據庫等。
n 高性能計算與海量(liang)存(cun)儲系統
應用(yong)場景一:測序儀配套(tao)高性能計算和(he)存儲系(xi)統(tong)
針對(dui)Illumina 大型測序儀提(ti)供海量(liang)(liang)的(de)并行(xing)文件存儲系(xi)統和適當規模的(de)高性能計(ji)算系(xi)統。目前通(tong)量(liang)(liang)較高(雙流動槽)的(de)一(yi)套(tao)測序系(xi)統三天一(yi)輪能產生約(yue)18T的(de)堿(jian)基數據。
基因(yin)測序(xu)與分析一般包含三大階段:
階段一:Illumina 測序儀(yi)采(cai)集(ji)數(shu)據并經過處理后產生fastq格(ge)式原始文件;
階(jie)段(duan)二(er):Tophat/BWA/Bowtie等軟(ruan)件(jian)(jian)讀取fastq格式文(wen)件(jian)(jian)及人類參(can)考(kao)基因組索引,經過序列比(bi)對生(sheng)成BAM格式文(wen)件(jian)(jian);
階段三:GATK/samtools等(deng)軟(ruan)件或其(qi)他基因分析(xi)類軟(ruan)件如Manta/Varsand等(deng)基因結構變(bian)異(yi)檢測軟(ruan)件、CNVnator基因拷貝數變(bian)異(yi)檢測軟(ruan)件等(deng)讀取(qu)序列比對后的BAM文件,經過分析(xi)處理生(sheng)成VCF格(ge)式文件。
需(xu)要PB級的大規模橫向擴(kuo)展能力和并(bing)行文件系(xi)統存(cun)儲(chu)設(she)備,以及數(shu)十個高(gao)性能計(ji)算的節點。一方面滿(man)足(zu)測序儀大量fastq文件存(cun)儲(chu)需(xu)求(qiu)(qiu),另一方面滿(man)足(zu)生物信息數(shu)據分(fen)析的計(ji)算資源和存(cun)儲(chu)資源需(xu)求(qiu)(qiu)。
應(ying)用場景二:De novo組裝(zhuang)分(fen)析(xi)
De novo組(zu)裝分析(xi)包括三個階段:
階(jie)段一:測序儀采(cai)集(ji)數據并經(jing)過處(chu)理后產生(sheng)fastq格式原始文件(jian);
階段二(er):對(dui) fastq格式文(wen)件進行(xing)質(zhi)量控(kong)制,并(bing)經過序列拼(pin)接(jie)生成contig/ scaffold拼(pin)接(jie)結果文(wen)件;
階段(duan)三:Glimmer等(deng)預測(ce)(ce)軟件對contig進(jin)(jin)行基因(yin)預測(ce)(ce)并對預測(ce)(ce)的基因(yin)進(jin)(jin)行功能注釋。
n 搭(da)建(jian)生(sheng)物信息分析流程
高通量測序數據(ju)金標(biao)準分析(xi)流(liu)程(cheng) + 定制化分析(xi)流(liu)程(cheng)
l 預置三大類共(gong)九(jiu)套高(gao)通量測(ce)(ce)序數據金標(biao)準分析流程,滿足絕(jue)大多數測(ce)(ce)序項目(mu)的(de)分析需求
l 提供數據(ju)分析(xi)軟件及數據(ju)庫的(de)定期維護和升級
l 提供生物信息(xi)人員遠程指導及到場培訓
l 提供特殊分(fen)析(xi)流(liu)程定制(zhi)和布(bu)置服務
基(ji)因組工(gong)作(zuo)(zuo)流整(zheng)合了一(yi)些(xie)分(fen)析軟件和相關生物信息學數據(ju)庫,把原始序列數據(ju)(fastq)處理為變(bian)型(VCF)數據(ju)。每個(ge)框表示一(yi)個(ge)分(fen)析模(mo)塊(kuai),由集成的(de)基(ji)因組分(fen)析軟件組成,如數據(ju)質量(liang)控制(zhi)、序列比對(dui)、變(bian)異提(ti)取(qu)和變(bian)異注釋(shi)分(fen)析等模(mo)塊(kuai)。這(zhe)些(xie)模(mo)塊(kuai)自身可作(zuo)(zuo)為獨立工(gong)作(zuo)(zuo)流被(bei)(bei)使用,也可以(yi)按照(zhao)邏輯關系(xi)被(bei)(bei)連接到一(yi)個(ge)更(geng)大(da)的(de)工(gong)作(zuo)(zuo)流中。
基(ji)因組工(gong)作流展(zhan)示
高度集成各類生物學軟(ruan)件及(ji)數據(ju)庫