智始於存,不止於存丨榮之聯重磅發布極道BioStack

▲ 點擊藍字“榮之聯”,關注榮之聯品牌微刊

智始於存,不止於存丨榮之聯重磅發佈極道BioStack

6月21日,榮之聯在IT賦能者峰會上發佈了面向生物信息私有云一體化的完整解決方案——極道BioStack。

生物信息行業數據存儲面臨一系列的挑戰:1.如何有效的存儲和存取大規模的生物信息數據;2.如何有效地調度和處理大規模的生物數據計算;3.如何根據多樣化的海量的數據特徵從大量的基因數據中發現數據,並且有效的組織數據集;4.如何將生物信息數據轉化為有效的大數據來做進一步的大數據分析。

為了應對這些挑戰,榮之聯重磅推出極道BioStack,專門面向生物信息、生命科學領域的生物數據生態系統,集“存”、“管”、“算”、“察”四位一體,提供完整的數據存儲、數據管理、數據計算和數據特徵分析,從根本上解決生信行業所面臨的數據的規模問題,充分利用計算和存儲資源,靈活有效的解讀高複雜度的生物數據關係和結構,讓生物數據的價值大放異彩。

智始於存,不止於存丨榮之聯重磅發佈極道BioStack

生物信息數據的“存”、“管”、“算”、“察”

對於存(極道數據空間系統)來講,最重要的是:能夠理解生信應用,極致的性能優化。用多套存儲系統組合,物盡其用,同時需除了空間以外,系統還需要有能力能夠實時的提取和動態追蹤工業標準的和生物信息信應用相關的元數據,以便後續的數據管理使用。

對於管(極道數據管理系統)來講:管的對象是數據的數據:物種信息,項目信息,特定的SNP變異注視等等。同時還需要能夠對預定義的和實時根據策略提取的元數據建立各種高級索引,形成結構化、半結構化的數據,以供快速的根據特徵找數據,根據公共數據特徵,動態組織數據集;多維度的對數據進行排序,根據結果數據溯源分析流程,溯源流程每一階段工具版本,以及原始數據來源。

對於算(極道基因計算系統)來講:突破計算規模,要真正的驅動應用感知,靈活的調度計算資源和存儲,融合多樣化的計算框架(批量計算、Spark、hadoop設置tensorflor),提供豐富靈活的表達,BSL,WDL編排流程,根據權限有效管理作業,流程,工具等等。

對於察(極道數據洞察系統)來講:對多樣豐富的數據特徵進行可視化,挖掘,建模,學習,以解讀計算結果,揭示數據特徵之間的關聯關係,內在聯繫和影響權重。

面向行業數據系統的三大特徵

極道BioStack除了有效的解決了生物信息數據的“存”、“管”、“算”、“察”外,特別突出了面向行業數據系統的三個特徵:“多樣化計算”、“數據感知”和“應用感知”。

智始於存,不止於存丨榮之聯重磅發佈極道BioStack

隨著生物信息技術的發展,越來越多的計算技術、計算框架、工具和編程語言被應用到生物信息分析中。為了分析複雜的數據和進行更為複雜的分析,計算多樣化在生物信息分析中得到了充分的體現。如何將多樣化計算有效的融合在統一的平臺裡呢?如何在構建系統的時候就打破異構計算的邊界,而做到隨時、隨心、動態構建所需要的計算框架,計算集群,用靈活的表達來描述複雜的分析流程,隱藏計算的差異?如何更便捷的把多樣的分析工具輕鬆的引入到生物信息分析流程裡呢?結果就是Biostack中的Bioflow(極道基因計算系統)。Bioflow是生物數據中心的操作系統。底層的多計算框架有機共生,動態構建邏輯集群。批量計算(容器調度,進程調度),spark計算集群,Tensorflow集群都是動態按需生成,Bioflow統一調度執行。同時極道Bioflow系統提供了豐富的表達,利用極道自主的BSL和WDL靈活組合,屏蔽了計算框架的差異,協助生物信息分析科學家簡單高效的編寫高質量,健壯的分析流程,管理分析流程和作業。

應用感知:生物信息計算的多樣化,決定了多樣的應用對計算和存儲需求的不同。單一的計算存儲和計算無法滿足在分析階段的多樣化工具對IO模型和存儲模型的多種要求,因此需要根據應用的計算模式和IO模式,適配計算資源和存儲資源。因此決定了計算和存儲面向應用的緊密結合。比如計算就區分浮點密集型的,對主頻要求高,有的對內存要求高,有的分析階段需要大帶寬,有的要求iops,有的要求有頻繁的元數據操作,有的要求數據的局部性。就要組合不同的計算和不同存儲,感知應用,調度資源,物盡其用。

數據感知:強調的是數據特徵的管理和動態追蹤技術。數據管理的目標是數據特徵,通過高效提取數據特徵,為特徵動態構建高效索引,形成結構化和半結構化的特徵數據,才能夠將基因組學“胖”數據有效的轉化為“大”數據,進一步跟臨床的表型信息,各種文獻論文關鍵詞有機結合進行挖掘、建模、學習, 以揭示海量生物信息數據中蘊藏著的具有物理現實意義的信息。

智始於存,不止於存丨榮之聯重磅發佈極道BioStack


分享到:


相關文章: