國際微生物大數據平台的應用與啓示

中國網/中國發展門戶網訊 微生物資源是人類賴以生存和發展的重要物質基礎,是生命科學和生物技術創新的重要源泉。隨著生物大數據時代的到來,微生物及其基因資源數據也正呈現爆炸性增長,微生物學研究正從以數據為支撐逐漸向以數據為中心轉變,海量數據的整理整合和開放共享對於微生物資源的研究和利用變得至關重要,微生物學已進入了組學數據時代。

與微生物相關的數據資源建設方面,國內許多單位已經分別建立了近百個生物信息資源數據庫,數據總量達到 PB 量級。在國家“863”計劃的支持下,我國生物信息技術與平臺管理技術體系已經成熟。北京和上海建立了分佈式的生命科學基礎公共信息分享平臺,為國際公共數據庫的引進、我國生物學基礎科學數據的共享、二次數據庫的開發做了大量卓有成效的工作,使我國在分佈式的生命科學基礎公共信息分享平臺建設奠定了良好基礎。

在大數據的背景下,未來的微生物學研究必將朝著形成一個全方位的微生物資源研究、開發與應用的網絡的方向發展,微生物研究各個環節的聯繫更加緊密,但每個環節的深度也在不斷增加,對數據應用必將提出更高的要求。隨著雲技術的發展,為大規模的數據存儲、計算和多樣化的分析提供了很好的解決方案。因此,利用雲技術,為科學家提供既包括整合型的數據,又能夠提供可定製數據分析服務的平臺,也將是未來微生物學數據研究的一個重要趨勢。

微生物資源與微生物大數據是國家重要戰略資源

微生物作為最簡單的生命體,蘊藏著極為豐富的物種資源和基因資源,微生物豐富的生物多樣性也使其成為生物技術和生物產業發展的基石,為人類解決能源、環境危機提供了重要平臺。目前可培養微生物僅佔微生物資源的 1%,而且這些已培養的微生物菌種的利用程度也非常低;因此,微生物資源是一筆巨大的、尚未開發的資源財富,開發和利用微生物資源具有重要的現實意義。微生物資源的有效利用是國民經濟可持續發展不可或缺的條件之一,直接影響國家的未來經濟發展潛力,也是一個國家重要的戰略資源。美國、歐盟、日本等都將微生物資源的開發與利用納入其戰略發展規劃,並圍繞微生物資源的發掘利用和產業開發等主題進行了中長期的部署。

微生物數據資源是微生物資源共享和開發的關鍵環節,數據資源的豐富性、準確性和共享水平決定著整個微生物學領域研究和應用的綜合能力。與實物資源相比,微生物數據資源是最有可能實現共享的一種資源。通過信息技術,建立統一的數據標準,為微生物資源研究的各個環節提供包括數據管理及共享、數據分析、計算模型等在內的支撐,促進信息資源的共享從而帶動微生物資源的開發和利用,對微生物資源研究和生物技術發展具有重要意義。21 世紀初,國際經濟合作與發展組織(OECD)推動建設全球生物資源中心網絡(Global Biological Resources Centre Network,GBRCN),歐盟也推動過歐洲生物資源及信息共享項目(Common Access to Biological Resources and Information,CABRI),但是這些計劃由於缺乏共享機制和技術力量支持等原因,都沒能建立一個穩定運行的、成熟的國際性數據平臺。

微生物資源大數據平臺建設

世界微生物數據中心落戶中國

世界微生物數據中心(World Data Center for Microorganism,WDCM)成立於 1966 年,隸屬於世界微生物菌種保藏聯合會(WFCC)和聯合國教科文組織下的全球生物資源中心網絡(GBRCN),是全球微生物領域最重要的實物資源數據中心。經過全球競爭,2010 年世界微生物數據中心(WDCM)正式落戶於中國科學院微生物研究所。這是落戶於我國生命科學領域的第一個世界數據中心,其落戶中國標誌著我國微生物學研究領域在國際上影響力的大幅提升,也給中國微生物資源研究與利用帶來了巨大的發展機遇。迄今,全球共有 76 個國家的 755 個微生物資源保藏中心在 WDCM 註冊。

WDCM 建設和維護了與微生物資源相關的一系列重要數據庫,包括全球微生物保藏機構數據庫(Culture Collections Information Worldwide,CCINFO)、全球微生物菌種資源目錄(Global Catalogue of Microorganism,GCM)、全球微生物參考菌株數據庫(Reference Strain Catalogue,RSC)、微生物資源引用數據庫(Analyzer of Bioresources citation,ABC)等,是全球微生物領域最重要的實物資源數據平臺。

在大數據整合技術研究方面,WDCM 團隊開發了生物資源引用平臺系統,利用先進的數據挖掘手段,從全球超過 600 萬已發表的微生物相關文獻、專利、核酸序列和基因組中,進一步提取了微生物資源的後續研究和利用的信息,並開發了參考菌株目錄。作為一個跨平臺參考目錄,該目錄整合 ISO 以及其他國際標準菌種統一編號,推動了全球菌種資源的高標準應用。在數據集成和服務機制上,WDCM 團隊也進行了積極的探索,使得該平臺能夠有效地在全球範圍進行數據資源的集成,並實現可持續發展。同時,WDCM 作為一個合作平臺,使我國科學家能夠在全球的角度,組織和協調各國的相關力量,建立全球性的合作框架,也讓中國有機會逐步在微生物資源的開發應用和數據共享方面佔領國際微生物研究前沿和主導地位。截至2018年7月底,平臺的累計訪問次數已超過 20 萬次。

倡導全球微生物資源目錄合作計劃(GCM 1.0),推動微生物數據資源共享利用

為了推動全球微生物數據資源的共享和利用,更好地整合不同來源、不同數據格式的微生物相關的數據,WDCM 於 2016 年 9月6日在全球保藏中心之間提出了“全球微生物菌種資源目錄國際合作計劃”(Global Catalogue of Microorganism),旨在為目前分散在全球各個保藏中心和科學家手中珍貴的微生物資源提供一個全球統一的數據門戶。此門戶系統覆蓋主要保藏中心的重要微生物資源,並且包括微生物資源在採集、鑑定、保藏和應用方面的詳細信息。這一國際合作計劃建立起了一套統一的全球微生物菌種目錄,對主要保藏中心的目錄進行標準化整理,提供統一的檢索出口。同時,在該目錄中集成利用自動化的知識挖掘方法得到的關於微生物資源的文獻、專利、序列、基因組等其他知識資源,並開發多種途徑的數據檢索工具以及數據推送、數據定製服務。

這項計劃由中國科學院微生物研究所微生物資源與大數據中心負責具體的信息平臺建設、數據標準建立、數據集成與共享實施。目前,已經有來自美國、法國、德國、日本等 46 個國家的 120 個國際微生物資源中心正式加入,40 萬株微生物實物資源的信息彙集到中國團隊開發的數據平臺。

全面參與國際微生物數據標準制定

長期以來,由於各個微生物資源中心採用不同的數據格式進行數據管理和共享,這極大地阻礙了微生物數據交換和在全球範圍共享資源的效率。中國科學院微生物研究所微生物資源與大數據中心和 WDCM 基於其組織的全球微生物菌種目錄(GCM)微生物數據資源國際合作計劃的工作基礎,並經過與國際標準化組織生物技術委員會(ISO/TC 276)及 WDCM 各國專家的討論逐漸形成了《微生物資源中心數據管理和數據發佈標準(草案)》。經過一年多的籌備,2017 年 7 月,作為 ISO/TC276 生物樣本庫與生物資源工作組(WG2)和生物數據處理及整合工作組(WG5)的共同項目,該項目通過了 ISO 的新工作項目提案(new work item proposal)投票正式立項。該項目現已註冊為工作草案(working draft),預計將在 2 年內正式發佈國際標準,並將成為微生物資源數據領域的第一個 ISO 國際標準。該標準的制定和實施將有助於保證微生物資源數據質量,並提高全球範圍微生物數據的兼容性和互操作性,為高效的數據共享和大數據分析提供基礎。

為《名古屋議定書》及履約工作在微生物領域的實施提供重要支撐

我國幅員遼闊,是全球 12 個生物多樣性大國之一,遺傳資源極其豐富。但長期以來,我國一直是發達國家獲取遺傳資源和遺傳資源相關傳統知識的主要對象,外國機構和個人通過多種非正當手段大量獲取我國豐富的生物遺傳資源,由此造成的流失數量和價值難以估量,形勢十分嚴峻。

《生物多樣性公約》(Convention on Biological Diversity,CBD)旨在保護瀕臨滅絕的植物和動物,最大限度地保護地球上的多種多樣的生物資源,以造福於當代和子孫後代。我國於 1992 年 6 月11日簽署該公約,1992 年11月7日批准,1993 年1月5日交存加入書。2010年10月,聯合國《生物多樣性條約》第 10 屆締約方大會(簡稱“COP10”)通過《名古屋議定書》(The Nagoya Protocol,NP);2014 年10月,《名古屋議定書》正式生效。《名古屋議定書》規定通過適當的資金援助和技術合作來保護生物多樣性,實現生物遺傳資源的可持續利用,其目的在於保障生物遺傳資源利益的公平分配。

WDCM 大數據平臺下的“全球微生物菌種目錄系統”(GCM)是一個包含微生物資源的檢索、分析和可視化的綜合數據庫。GCM 結合更多的在線目錄數據,將菌種資源與核酸序列、蛋白質、參考文獻、引文數據等進行關聯,並以統一數據門戶的形式,對全世界科技界和產業界提供微生物菌種資源的信息服務。GCM 對於微生物實物資源從採集、保藏、跨國轉移、學術和商業應用以及利益分享的各個環節都能提供有效的數據支持,為《生物多樣性公約》及《名古屋議定書》(CBD/NP)在微生物領域的實施和執行提供最重要的支撐。GCM 平臺及其相關的指導原則,在國際上第一次建成一套完善的可運行的信息平臺方案。WDCM 在 CBD/NP 實施方面的相關工作,也符合我國參與 CBD 工作的主要方向。目前,CBD 的信息交換所、國際微生物領域、法律界以及我國環保部專家都對 WDCM 的相關工作給予了高度認可,對 GCM 平臺對 CBD/NP 的實施給予了相當的肯定。

啟動“模式微生物基因組測序、數據挖掘及功能解析全球合作計劃”(GCM 2.0):從微生物資源數據到實物資源的共享利用

模式菌株(type strains)是在給微生物定名、分類記載和發表時,作為分類概念的準則,即以純菌(可繁殖)狀態所保存的菌種。模式菌株由於其參考性和唯一性,對微生物的鑑定、功能研究和大規模組學數據分析都具有重要的價值。目前已知的微生物模式菌株廣泛地分佈在全球的保藏中心,已測序的微生物基因組還存在大量的空缺。通過對所有已知物種的模式菌株進行組學數據解析,具有重大的科學意義和戰略意義。隨著測序成本降低和海量數據分析能力的提升,發起大規模的測序計劃,開展以序列分析和功能挖掘為基礎的研究,已是大勢所趨。

2017 年 10 月,由中國科學院微生物研究所牽頭,聯合全球 12 個國家,共同發起了“模式微生物基因組測序、數據挖掘及功能解析全球合作計劃”(Global Catalogue of Microorganisms 10K Type Strain Sequencing Project)。該計劃將在 5 年內完成超過 10 000 種的細菌、真菌、古生菌模式菌株基因組測序,覆蓋目前已知的全部細菌、古菌模式菌株以及重要的真菌模式菌株,建立全球微生物模式菌株基因組和微生物組測序合作網絡,覆蓋超過 20 個國家的 30 個主要保藏中心,從全球微生物資源保藏中心選擇目前未進行測序的模式微生物菌株,完成超過總體90%以上的微生物模式菌株的基因組測序。

作為中國牽頭的國際大科學計劃,該計劃將建立覆蓋全球主要合作伙伴,尤其是發展中國家的科技資源共享網,聚集全球微生物領域優勢科技資源和頂尖科學人才,幫助解決領域基礎和前沿的重大科學問題,也為《生物多樣性公約》履約和《名古屋議定書》中的生物資源跨國轉移及惠益分享機制等國際合作貢獻中國智慧和中國方案,充分體現了我國在微生物領域的科技創新競爭力和國際引領的綜合能力。

思考與建議

積極提供數據增值服務,確保全球微生物資源數據合作計劃的順利實施

“全球微生物資源目錄合作計劃”(GCM 1.0)目前已經有來自美國、法國、德國、日本、中國、印度、越南、巴西等 46 個國家的 120 個國際微生物資源中心正式加入,40 萬株微生物實物資源的信息彙集到中國團隊開發的數據平臺。在這120 個國際微生物資源中心中,發達國家的和發展中國家的基本上各佔一半。這麼多發達國家和發展中國家的微生物資源保藏中心之所以向 WDCM 免費提供他們的數據,是由於其開發的微生物綜合大數據平臺,能夠針對發達國家和發展中國家的保藏中心提供各自所需的個性化增值服務。以歐洲最大的微生物資源保藏中心——德國微生物菌種保藏中心(Leibniz-Institut DSMZ-Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH,DSMZ)為代表,當他們把其保存的 3 萬多微生物資源目錄的數據提交到 WDCM 的數據平臺後,我們可以通過開發的數據挖掘系統,清晰地瞭解全世界科學家和產業界在過去 30 年裡使用 DSMZ 出售的菌種,撰寫了多少科學論文,申請了多少國際專利,產生了多少核酸序列數據,也就是說我們可以告知 DSMZ 他們在過去 30 年裡為國際學術界做出了多大的貢獻。DSMZ 所長在撰文描述他們在過去幾十年的發展歷程時,也使用了我們提供的數據。以越南典型培養物保藏中心(Vietnam Type Culture Collection,VTCC)為代表的發展中國家保藏中心,通過加入 WDCM 這一全球合作計劃,可以方便地使用 WDCM 的大數據平臺,建立自己的對外主頁和網上菌種目錄數據庫;還可以通過 WDCM 這一全球化信息平臺把自己的菌株信息展示給全世界,提高自己的知名度,促進全球微生物資源數據的共享。GCM 1.0 是國際微生物資源領域由我國倡導和實施並獲得廣泛響應的國際合作計劃,摸索了一套整合全球微生物資源數據的有效機制,促進了微生物資源數據的全球共享利用,也確立了我國在微生物資源數據共享方面的引領地位。

利用現有優勢,進一步牽頭國際微生物模式菌株測序計劃,從全球數據共享到實物資源合作

微生物組學也是一個世界各國爭相發展的戰略性科技領域,美國、日本等發達國家已經部署了支持微生物組研究的國家計劃。2016 年 5月13日美國宣佈啟動“國家微生物組計劃”,相關政府部門攜手私營機構投資高達 5 億美元,對微生物組進行全面深入的研究,並將研究成果廣泛應用於醫療、食品生產及環境保護等重點領域。我們應當以模式微生物基因組測序計劃為抓手,依靠我國在微生物資源的研究、測序技術、微生物數據綜合分析能力等方面的優勢,抓住機遇,儘快啟動涵蓋人體、農業、環境、傳統發酵、新技術等內容的“中國微生物組計劃”重點研發專項,並進一步利用該計劃建立的國際合作網絡,啟動中國引領的微生物組國際合作計劃,搶佔微生物領域的戰略制高點。2017 年 10 月,我們在現有全球數據合作的基礎上,啟動了“模式微生物基因組測序、數據挖掘及功能解析全球合作計劃”(GCM 2.0)。目前已經有 14 個國家的 24 個保藏中心參加這一計劃,並提供相應模式菌株的菌株或者 DNA,使我們從早期的全球微生物資源數據共享,進入到實物資源合作階段。

通過生物大數據平臺推動生物大數據產業發展

BCC Research 的報告中指出:“2013 年,全球新一代測序和數據分析市場總額為 5.1 億美元,至 2018 年,這一市場總額將增長至 76 億美元,複合年增長率達到 71.6%”。生物大數據蘊涵著巨大的產業價值,屬於國家戰略資源。我國是生物多樣性和生物技術大國,生物物種、生物資源和生物技術數據極其豐富,這些數據與生物產業息息相關。未來國家的核心競爭力將很大程度上取決於將數據轉化為信息和知識的速度與能力。基於大數據的研究和信息發現已經成為生命科學研究新範式和科技創新引擎,並將改變生物產業格局,催生產業新業態。生物大數據平臺是科技推動產業發展的橋樑,應該通過政策規劃、科研項目佈局等多種方式,引導大數據研究成果與產業化應用進行對接,提升企業參與生物大數據研發的積極性,推動我國大數據產業發展。(作者:劉柳 馬俊才 中國科學院微生物研究所 北京。《中國科學院院刊》供稿)


分享到:


相關文章: