中國生物多樣性大數據平台建設

中國網/中國發展門戶網訊 現代生物科技的迅速發展已經使生物生態數據呈現爆炸式增長,進入“大數據時代”。海量數據的整理整合和開放共享對於生物資源的研究、利用和保護至關重要。生物多樣性大數據與生物資源本身一樣,已成為國家戰略資源,成為國際科技和產業競爭熱點和戰略制高點。近年來,大數據已經受到國內外的廣泛關注。通過 Web of Science 檢索標題有“big data”一詞的文章,結果顯示有 13 092 篇文章,發表日期主要集中在近 5 年:2011 年只有 20 篇文章,而 2013 年就猛增到 752 篇,2017 年達到 3 421 篇。從發表文章的學科分佈看,以計算機科學、工程學、電信學、數學、企業經濟學等為主。從論文的國家分佈看,排在前面的是中國、美國、印度、英國、澳大利亞、韓國、加拿大和德國。

大數據為科學研究帶來了新的方法論。作為科學研究的新範式,大數據正在催生人們用全新的思維追求科學發現。生命科學領域多層次大數據的匯聚、深度分析,以及通過學科交叉與生態、地理、遙感、環境等數據的融合所實現的知識發現,推動著生命科學研究向“數據密集型科學”的新範式轉變,正在深刻改變著人類對生命本質的認知方式和生物多樣性資源的利用能力。

因此,考慮到國家生物多樣性保護戰略和國家大數據發展戰略的重大需求,我國生物多樣性領域存在的主要問題是如何圍繞生物多樣性資源的保護與利用,有效整合多源異構數據資源並建立我國生物多樣性與生態安全信息共享平臺,實現生物多樣性資源保護和有效管理,保障國家生態安全,支撐國家公益性科學研究和產業創新,促進生物多樣性信息最大限度地整合、分析、評價、保護和利用,推動我國生物多樣性科學創新和生物產業乃至社會經濟的可持續發展。

生物多樣性大數據建設的重要進展

近年來,生物多樣性信息學快速發展,全球和區域水平的生物多樣性數據庫不斷建立和完善。例如,全球生物多樣性信息網絡(GBIF)等全球大型數據庫包括10 億多條物種分佈信息。若干國家水平的數據庫,如澳大利亞生物多樣性信息系統(ALA)和美國標本數字化平臺(iDigBio)等,亦可以提供數千萬條物種分佈信息。國際生物信息的主要數據庫由美國的國家生物技術信息中心(NCBI)和歐洲生物信息研究所(EBI)等控制。

發達國家利用數字化手段在生物多樣性與生態安全信息方面取得了重要的進展。通過建設數字化和網絡化的植物園、標本館,在現代空間科學技術和通信網絡技術的基礎上應用數字地圖、遙感影像、實驗觀測、數字建模等手段,以多形式、多時相、多比例及不同的空間分辨率對生物多樣性資源進行全方位表達、描述和分析,即“沒有圍牆的 e-Science 實驗室”,為科學家、決策者和公眾提供科學研究、資源管理和科普教育的數字化平臺。

生物多樣性監測手段和監測網絡的發展,觀測數據的不斷積累,也推動著生物多樣性研究進入了大數據時代。海量的生物多樣性信息為生物多樣性科學研究提供了有力支撐,極大促進了生物多樣性大尺度格局、生物多樣性保護規劃與資源管理、生物多樣性對全球變化的響應、外來種入侵態勢預測等方面的研究。

在生物大數據時代背景下,生物多樣性信息數據是國家重要戰略資源,也是國家生態安全和生態文明建設的重要保障。生物多樣性領域多層次、多維度的大數據匯聚與綜合分析,正在深刻改變著人類對自然的認知方式和資源的利用能力。因此,建設國家生物多樣性與生態安全綜合信息服務平臺具有時代的緊迫性和必要性。然而遺憾的是,從全球生物多樣性在線數據資源分佈看,亞洲整體上屬於數據貧乏的區域,GBIF 的植物分佈數據亞洲只佔 4%。儘管中國在亞洲處於生物多樣性信息學發展比較好的國家,但信息資源整合度低、數據的碎片化、共享程度有限等,阻礙了信息的深度挖掘和有效利用。

作為中國自然科學最高學術機構,中科院積累了大量生物物種(包括古生物)和遺傳資源信息、野外臺站和大樣地監測體系,以及龐大的國際合作網絡,並且已經建成了全球最大的古生物學與地層學專業數據庫(GBDB)、國家標本資源共享平臺(NSII)、世界微生物數據中心(WDCM)、中國生物物種名錄、中國生態系統評估與生態安全數據庫、中國生態系統研究網絡⑥(CERN)和中國森林生物多樣性監測網絡⑦(CForBio)等一系列信息不斷更新的大數據平臺。因此,全面整合中科院的生物、生態與社會經濟和環境信息資源,聚焦服務國家重大需求的應用場景,形成多層次的柵格化數據圖層;利用分析模型和可視化技術實現對生物多樣性資源數據功能挖掘和利用,構建開放開源的生物多樣性與生態安全大數據處理利用的通用接口,建立一個以生物多樣性與生態安全信息為核心的,包括對海量數據進行有效管理、高效分析和可用易用的綜合大數據平臺,為生物多樣性科學發現和科普教育,履行《生物多樣性公約》、國家生態承載力評估和生態安全格局構建等提供強有力的支撐和服務。

中國生物多樣性大數據平臺建設的初步框架

針對我國科學研究和社會經濟發展的需求,在現有數據資源的基礎上,參考相關的國內外研究進展,搭建適合中國國情的生物多樣性大數據平臺,明顯改善中國生物多樣性大數據共享環境,並選擇數據和合作基礎好的類群,將數據整合的範圍拓展到洲際甚至全球水平。平臺建設的重點是整合國內外生物多樣性相關的多元異構數據資源,推動數據開放共享,通過大數據的深度挖掘,在數據產品、科學發現、政府決策和科普教育等多個方面取得重要進展,主要包括下列 5 個方面的內容。

古生物與古環境綜合數據集構建及其在生命演化中的應用

集成 GBDB 數據庫(地球生物多樣性數據庫)、VPPDB 數據庫(中國古脊椎動物、古人類與古 DNA 數據庫)、DFFP 數據庫(中國古植物與古孢粉數據庫)、PPDB 數據庫(中國古氣候古環境數據庫)、OneMorph 數據庫(生物形態特徵數據庫)、南京地質古生物研究所和古脊椎動物與古人類研究所的標本館數據庫、“國家巖礦化石標本資源共享平臺”的古生物地層數據,以及各高校院所的館藏標本數據庫,初步建成中國化石綜合數據庫和開放的古生物科普網絡互動系統。研發數據挖掘工具以及基於雲存儲的大數據分析軟件,用於定量地層對比、生物多樣性演替、古地理重建、古環境模擬、系統發育分析等,探索生命演化進程與機制、古生物地理分佈與擴散規律、地史時期重大事件對生物界的影響等。研究古生物多樣性的演替格局與機制,為探索生命與地球的協同演化、生物多樣性變化規律提供關鍵數據支撐和歷史借鑑。

關鍵核心科技問題:①依託雲存儲與大數據分析平臺,利用定量地層方法、海量化石記錄與高性能計算技術,建立高分辨率的生物地層對比序列,其對比精度在萬年級,而現有的其他傳統技術,深時對比精度通常為百萬年級;②建立地質歷史時期高分辨率的海陸生物多樣性變化規律,並將化石記錄與岩石記錄關聯,探討生命與環境的協同演化,尤其是地質歷史中重大生物滅絕與輻射事件的起因、過程與生物的應對策略;③開發具有自主知識產權的古地理重建和古環境模擬軟件,增強現生生物與古生物多樣性在地理與環境背景下的可視化功能,識別生物的地理分佈與遷徙規律等。

物種多樣性及其分佈數據整合與分析展示

集成物種資源與分佈基礎數據,完善和充實物種基礎信息數據庫(包括物種名錄、圖像、聲音、文獻數字化、標本記錄數字化等),針對各部委或部門需求建設專題數據庫;基於識別物種圖像、鳴聲、特徵等人工智能技術開發物種識別與鑑定系統,探索新的技術在物種分類、生物多樣性監測中的應用,支持入侵生物、農林害蟲等重要物種快速識別與鑑定;研發數據挖掘軟件與知識發現模型工具,以物種多樣性大數據為基礎,回答物種“有什麼?”“是什麼?”“在哪裡?”“怎麼樣?”等關鍵科學問題,產生一批為國家決策、科學研究、科普教育提供支持的信息產品。

關鍵核心科技問題:①數據來源多種多樣,格式不統一,需要建立統一的數據標準規範,開發基於標準規範的數據集成和管理工具,支持數據可持續獲取;②不同的研究內容需要不同的模型工具和數據,如何把共同需要的模型工具與數據整合起來,並針對不同內容定製特殊模型進行數據挖掘;③引入大數據與人工智能技術是生物多樣性信息學研究的重要實踐,如何將傳統模型方法與大數據智能模型方法相結合,促進學科發展,更好地為決策服務;④數據產品的展示與可視化直接關係到成果的應用,如何有效地利用可視化平臺,提高數據產品可見度,以便更直觀地應用到決策和科學發現中去。

生物遺傳資源信息整合與服務平臺

設計和制定生物遺傳資源數據處理和分析規範,設計優化的數據質量控制體系,形成與生態、環境、氣候、遙感等數據集成的規範化接口;在此基礎上,系統蒐集和整合海量高質量、具有代表性的生物遺傳資源大數據,實現覆蓋植物資源與性狀、實驗動物資源與功能特徵、微生物資源、組學數據、DNA 條形碼等數據的廣泛、深層次整合,形成完善的生物遺傳資源為核心的數據圖層。

面向國家《生物多樣性公約》履約、瀕危物種保護、病原微生物溯源和重要傳染病防控、重大疾病的精準醫療等一系列的重要應用,建立生物遺傳資源跨國轉移監控、利用全基因組序列的食源性病原菌溯源、基於 DNA 條形碼的物種鑑定、複雜疾病和相關表型的風險評估、預警和動態監測模型等一系列分析模型。建立基於地理信息系統的生物遺傳資源大數據服務門戶。對生物遺傳資源信息的快速索引與精確匹配,設計交互式圖形化分析界面,實現基於地理信息系統的大規模生物遺傳資源數據的可視化展示。並整合分析模型,實現高效、實時、動態的決策支持。

關鍵核心科技問題:①數據、接口的標準化、數據質量控制體系建設及基於統一標準的多源數據整合;②開發異構異質數據的規範化接口,實現生物遺傳資源數據與地理、環境、生態、氣候、遙感等多源數據的整合,並形成一個完整的圖層;③在生物遺傳資源數據體系的基礎上,針對重大應用需求,開發生物遺傳資源轉移監控、瀕危物種鑑定等數據分析和可視化模型,實現生物遺傳資源的挖掘與利用共享,為政府相關部門提供決策支撐,為生物產業發展提供前瞻性、戰略性的指導,並實現基於地理信息系統的數據服務產品開發及應用。

中國植被圖更新與在線服務平臺

現有中國植被圖所利用的資料基本上是新中國成立以後到20 世紀 80 年代前的資料,獲取資料的手段也主要是大規模區域資源考察的路線調查,製圖過程主要依靠人工勾繪方式,從而導致現有中國植被圖現實性差、斑塊邊界不一致等問題,因此亟須開展新一代植被圖繪製研究。

近年來,隨著植被調查數據的積累、遙感數據的增多、深度學習等大數據分析方法的出現,給植被圖更新提供了新的機遇。利用數據平臺收集整合的全國地形數據、氣候數據、長時間序列遙感數據、植被資源數據,採用面對對象分割算法將中國植被劃分為均質斑塊;根據已有 1 : 100 萬中國植被圖、地表覆蓋圖以及同時段、多類型、海量地面調查數據與均質斑塊進行空間疊加分析,並採用深度學習的方法形成新的植被類型圖原型圖;針對位於我國典型生態脆弱區、自然保護區、生物多樣性保護優先區、生態紅線管控區等重點區域的屬性不一致的植被斑塊採用近地面遙感技術和實地調研方式開展地面驗證,同時利用“眾包”和“公民科學”的方式收集植被斑塊信息,逐步完成植被圖的驗證和鑑定,集合我國各省植被生態學領域專家,建立植被圖分省校訂機制,生成新一代植被圖。

依託國家標本資源共享平臺(NSII)、自然標本館(CFH)等多個匯聚植被照片的網絡平臺,提取帶有地理座標的植物圖片中蘊含的植被信息,輔助植被製圖。建立面向大眾用戶和專家用戶的植被圖片眾源採集數據平臺,實現電腦和手機應用程序(APP)的圖片採集和判別,獲取眾源植被類型數據,為新一代植被圖繪製和未來更新提供鑑定和驗證數據。植被圖繪製方法形成技術儲備,為“一帶一路”沿線國家植被類型分佈圖製作提供技術支持。建立中國植被生態學領域的綜合網站“中國植被在線”。採用 WebGIS 實現新一代植被圖和專題資源展示,整合各植被分類單元的描述、圖片、視頻等資源,實現全方位查詢。

關鍵核心科技問題:如何利用長時間序列的衛星遙感數據、整合眾源海量地面調查數據,結合深度學習和遙感技術,繪製新一代 1 : 50 萬中國植被圖,改善現有植被圖時效性差、邊界不清晰問題,為我國生態學、地學、資源利用和保護等學科提供重要基礎圖件。

生態系統變化與生態安全格局評估

針對我國生物多樣性與生態安全狀況、變化、保護和我國生態安全格局構建的實際需求,綜合採用地面監測、近地面遙感、衛星遙感等技術手段,集成地面監測數據以及區域和全國生態系統調查評估數據,動態獲取基於航空遙感的生態系統與生物多樣性參數;從生物多樣性組分的狀態和趨勢、生物多樣性受威脅的因素、生態系統的完整性和服務功能、資源的可持續利用、生態系統服務共享狀態等多個方面篩選合適的生物多樣性指標,建立區域生物多樣性評估基礎數據集和區域生物多樣性評估體系;開展全國土地覆被與生態參數遙感監測;建立我國典型生態系統恢復成效評估平臺、國家尺度生態系統評估平臺、生態安全格局模擬分析平臺。為生態保護成效評估、生物多樣性監測與保護、生態效益評估和國家生態安全格局構建提供科技支撐,服務於國家生態文明建設。

關鍵核心科技問題:①生態安全格局構建方法體系。圍繞國家和區域生態安全保障,建立生態系統及其生態參數動態監測技術體系、區域生態承載力評估技術方法、生態系統服務評估、模擬預測技術體系、生態安全格局構建方法與動態分析方法。②區域生物多樣性監測與評估技術。針對生物多樣性保護的監測與評估,從“生物多樣性政策”“生物多樣性壓力”“生物多樣性組分的狀態”“生物多樣性服務功能”4 個方面出發,建立規範化、標準化、時空可比的區域生物多樣性評估體系,提高生物多樣性監測評估方法的精度和區域適宜性。③區域生態保護成效評估方法。針對區域生態保護成效評估,建立生態保護成效評估基線的確定方法;建立區域生態保護成效評估指標體系和技術方法以及評估區域生態保護成效評估方法的區域適宜性。

中國生物多樣性大數據平臺的資源整合與共享

生物多樣性大數據資源整合涉及多種結構形式、多個單位渠道和多個學科領域,數據共享形式可以分成 4 種類型:①中國生物多樣性大數據平臺建設團隊產生的數據,全部充分對外提供共享服務;②中國生物多樣性大數據平臺建設團隊主持或者作為主要參加人建設的在線數據共享平臺,以在線 API 共享方式整合,對用戶提供共享服務;③中科院資助項目產生的數據集,通過協商和院局層面的協調或者發佈相關的數據共享辦法實現數據共享;④中科院院外和國外數據資源採取協議方式實現數據共享。中國生物多樣性大數據平臺是一個由總平臺、子平臺和合作共享的數據源組成的生物多樣性數據共享網絡體系。

數據共享總平臺主要包括下列 4 個部分:①數據彙總、質量控制、可視化展示並實現不同程度和方式的數據共享。集成古生物演化、遺傳資源、物種多樣性、生態系統與生物多樣性動態變化等專項數據集。通過對數據信息的組織和標準化處理,構建多維度生物多樣性(如組學多樣性、物種多樣性、譜系多樣性、功能性狀多樣性、群落多樣性、生態系統多樣性和古生物多樣性等)綜合數據平臺。建立專門的門戶網站、開發專題搜索引擎,為用戶提供檢索服務,對各類數據集產品、數據挖掘工具、重要研究成果等進行可視化展示與充分共享。②建立共性數據庫,包括高分辨率環境數據庫、1 億年來的古氣候古環境數據庫、社會經濟數據庫、自然保護地數據庫、新一代植被圖、生態系統類型矢量圖等。③整合與開發數據挖掘工具或軟件,建設生物多樣性與生態安全格局在線分析平臺。將當前常用的生物多樣性分佈數據模型進行收集和整合,建立方法工具庫,綜合評價各類模型預測精度與穩定性,探討全球變化下重要類群(如瀕危物種、特有物種)分佈和遷移與氣候變化的關係、區域氣候變化對生物群落和功能的影響、生態系統功能群與關鍵物種的變化預測、生物多樣性保護熱點與空缺分析、自然保護區管理成效評估、外來物種風險評估預測與預警、關鍵生態系統例如中國森林、草原、溼地等類型動態變化模擬與未來變化情景預測等。④利用手機 APP 智能識別物種功能性狀或鳥類鳴聲等特徵,快速識別動、植物物種,在提供物種識別服務的同時實現眾源數據採集。通過中國植物誌在線、中國植被在線和生物多樣性知識百科等在線知識產品以及對用戶進行的數據平臺、數據挖掘工具和人工智能識別系統等使用培訓,讓廣大用戶簡單快捷地從綜合平臺上獲取需要的生物多樣性信息,不斷提高用戶的體驗水平。

中國生物多樣性大數據平臺的核心任務是通過各種可能的方式整合現有的相關數據資源,在此基礎上形成 4 個方面的產出。①整合、清理和完善專題數據集,為用戶提供價值大共享程度高的數據產品;②針對重要的科學問題充分挖掘整合的數據資源,在大數據基礎上開展數據密集型研究,有力地驅動更具創新性的科學發現;③瞄準國家重大需求,支撐生態文明思想指導下的政府決策,為中國可持續發展目標實現提供強有力的科學支撐;④通過知識庫和靈活多樣的數字產品,為科普教育和社會公眾科學文化水平提高做出重要貢獻。(作者:馬克平 朱敏 紀力強, 馬俊才郭慶華歐陽志雲朱麗 中國科學院植物研究所 北京 中國科學院古脊椎動物與古人類研究所 北京 中國科學院動物研究所 北京 中國科學院微生物研究所 北京 中國科學院生態環境研究中心 北京。《中國科學院院刊》供稿)


分享到:


相關文章: