基因學的終極密碼,此刻就藏在HPC之中

基因學正在改變人類的未來,針對遺傳出生缺陷的產前檢測,腫瘤基因檢測,病毒和細菌的基因研究等,通過基因測序都能找出“元兇”。

基因學的終極密碼,此刻就藏在HPC之中

所以,基因測序產業正迎來一個發展的大時代,相關數據統計,基因測序從2007-2013年複合增長率為33.53%,全球的市場規模2007年只有800萬美元,而2018年將達到約117億美元,說明基因測序的市場已經逐漸成熟。

如今,基因測序技術已被列為國家重點發展產業。據研究,每年的基因測序分析增長會在30%以上,數據量也將是越來越多,如何傳輸,保存和管理海量的基因數據是一個非常棘手的問題所以,HPC正被廣泛應用於基因測序行業。

年輕的諾禾致源,怎麼做到領跑基因測序行業

基因測序行業是一個風口上的行業,也充斥著大量的新老玩家,但同時基因測序又是一個嚴謹的行業,只有抱著科學合理的出發點,在不斷試錯,探索前進,才能最終勝出。諾禾致源顯然正沿著這樣一條路在前行著。

在國內基因測序領域,諾禾致源是一個標誌性的企業。作為目前國內基因測序領域的佼佼者,諾禾致源的業務覆蓋科技服務、腫瘤基因檢測及遺傳檢測三大領域,為全球研究型大學、科研院所、醫院、醫藥研發企業、農業企業等提供基因測序、質譜分析和生物信息技術支持等服務。

基因學的終極密碼,此刻就藏在HPC之中

成立於2011年3月的諾禾致源最初以科技服務為主。2012 年,諾禾致源開始拓展腫瘤基因檢測服務。發展至今,諾禾致源業務已經覆蓋科技服務、腫瘤基因檢測及遺傳檢測三大領域。

實際上,基因測序行業是一個知識密集型的產業,衡量的標準有兩個,一是對基因學術的貢獻度,二是先進基因測序儀的擁有量。

那麼首先,在基因學術的貢獻度方面。截止2018年6月,諾禾致源與項目夥伴合作發表SCI文章總計330餘篇,累積影響因子大於2120;目前已取得軟件著作權115項,自主研發專利49項。

其次,目前諾禾致源已在全球運行25臺NovaSeq、20臺PacBio Sequel、30臺HiSeq X、11臺HiSeq 2000/2500/4000、4臺MiSeq、4臺NextSeq 500、6臺Life Ion Proton(DA8600)、2臺S5XL和5套Q Exactive™ HF-X等最先進的基因測序儀,建立了亞洲通量規模最大的基因測序平臺,將實現每年280,000人全基因組測序的超高通量。同時,全國首家引入Q Exactive™ HF-X高端質譜平臺,打造最先進的生物質譜中心,為客戶提供全面、深入的多組學解決方案。

基因學的終極密碼,此刻就藏在HPC之中

除了這兩個關鍵點之外,諾禾致源的生態建設也已非常完善,合作伙伴遍佈全球,包括超過1920家科研院所和高校、720餘家醫院、1430餘家醫藥和農業企業等。諾禾致源的企業夢想是成為全球領先的基因組學產品和服務提供者。

算法和數據之後,計算的三大瓶頸如何打破?

基因測序最核心的資產就是基因測序儀產生的龐大數據量,所以隨著基因測序的通量越來越大,行業產出的數據也越來越多,相對而言對存儲、計算平臺的能力也提出更高要求。

所謂高通量基因測序,是通過測序技術解析生物DNA分析排序特徵,包括序列圖譜構建,序列比對,變異檢測等高性能計算。尤其在人類健康研究中,需要了解海量蛋白質的結構,功能,相互作用以及與各種人類疾病之間的關係,尋求各種治療和預防方法,包括藥物治療。基於生物大分子結構及小分子結構的藥物設計等等。

基因學的終極密碼,此刻就藏在HPC之中

所以在生物信息學的處理過程中會用到大量的軟件,例如面向序列組裝的SOAPDenovo,ALLPATHS-LG,Falcon, Trinity等;面向序列對比:BWA, Blast, bowtie2等;面向序列分析: CLUSTAL,HMMER等;面向進化樹分析:PHYLIP,TreeBest, MrBayes等。

同時生物算法正逐漸成熟,生物數據通量也急劇提升,這必然會帶來對分析軟件和流程的全面優化,所以計算力成為了精準醫療行業面臨的最大瓶頸。對諾禾致源來說,對HPC的需求也遇到很多挑戰。

第一,數據量巨大。正因為基因測序儀產生的數據量是非常巨大的,這就要求在HPC系統中必須配置海量存儲,滿足測序數據的存放。

第二,內存的需求大。在序列對比或者拼接階段,需要一次性將海量數據載入到內存中並且加以處理,如果內存不夠或者性能不優,很可能無法進行對比或者下一步的計算等工作,因此,我們建議對於生物信息學應用環境,需要配置胖節點或者大內存節點,滿足數據載入和分析,充分提高工作效率。

第三,計算量大。對於不同生物信息學程序而言,基於不同算法的對於CPU的要求也不盡相同,但是總體計算量都十分巨大,有的支持並行,有的軟件在單節點內進行計算,總而言之,與其他高性能計算應用相似,生物信息學類的計算也為CPU密集型的。

很明顯,如果有HPC的長期穩定的支持,將會助力諾禾致源對未來的發展,在多方考察之後,諾禾致源選擇了聯想HPC成為服務商。聯想是如何滿足諾禾致源的需求的呢?

用HPC築底,諾禾致源背後的聯想之力

聯想作為國內HPC的領軍者,首先對諾禾致源的問題做了縝密的需求分析。聯想認為:生物信息學類計算的核心內容是內存密集型,存儲密集型,結合聯想多年來的經驗,為諾禾致源提供了針對化專業化的解決方案。

基因學的終極密碼,此刻就藏在HPC之中

主要解決諾禾致源對高性能、內存、存儲和穩定性的四大問題。

首先,對於高性能計算而言,一方面是浮點處理性能,另一方面為CPU本身的綜合性能,聯想結合生物信息學行業的特點,推薦使用Intel處理器,不僅實現了較高的處理性能,並且在能效比,內存支持,以及CPU本身的架構上Intel都有很大的優勢。

其次,在生物信息學應用中,先期數據的載入對於內存容量的要求越來越高,聯想採用大內存服務器四路或者八路胖節點,可以在單節點中配置最高達2TB內存,充分達到應用的實際需求。

其三,海量存儲系統是生物信息學計算的先決條件。聯想不僅可以提供了專業級的直連存儲,更有通過專有的存儲節點構建並行文件系統或者是分佈式存儲系統,接入以太網,甚至40GB/56GB的Infiniband網絡,總體容量可達到PB級,除此之外還考慮到用戶的數據安全,數據備份等,從根本上解決了生物信息學的數據存儲難題。

最後,一套高穩定性的系統能夠使我們的生物信息學應用更加方便快捷,同時也能夠高效率的處理數據,保證業務不中斷,聯想通過統一的集群監控管理,作業調度,結合聯想高性能的服務器,從各個方面保證了整套系統的穩定性,大大提高了用戶的使用穩定性和減少了故障率,為用戶提高生產力提供持續不間斷的支持。

據瞭解,聯想提供的高性能運算系統,提供了將近200萬億次計算能力,配置超過10PB的存儲空間。本套集群很好的承載了諾禾致源華東地區的業務,有效的改善公司在華東計算資源不夠的限制。

如今諾禾致源已經擁有全球領先的高性能計算平臺,數據中心運算能力已提升至1727T flops,總內存410TB,總存儲60.2PB,有效地支撐著生命科學研究和醫療健康兩大領域對大數據分析和存儲的需求。在通過高性能計算探索基因學的未來之路上,聯想HPC始終是諾禾致源最值得信任的技術服務商。


分享到:


相關文章: