數據+人工智慧是材料基因工程的核心

數據+人工智能是材料基因工程的核心

2012—2014年,本文部分作者有幸參與了中國工程院關於中國版材料基因組計劃諮詢報告的撰寫工作,之後以諮詢報告為基礎在《科技導報》發表了題為《材料基因組——材料研發新模式》的文章,對材料基因組的理念進行了歸納總結。在之後的3年中,國內外對材料基因工程的認識與理解在不斷加深。本文試圖進一步探討有關材料基因工程工作模式、材料數據的內涵、人工智能在材料基因工程中的核心作用、材料基因工程與第四科學範式間的關係等方面問題,以期引發材料科學界對材料基因工程的更多思考與重視。

材料基因組計劃(Materials Genome Initiative,MGI)的出現反映了全球對加速材料從發現到應用進程的需要。進入21世紀以來,科技革命作為產業革命先導的趨勢日見明朗,依賴於科學直覺與試錯的傳統材料研究方法已無法適應時代的發展。2011年6月,時任美國總統奧巴馬宣佈啟動材料基因組計劃,意在改革傳統材料研究的封閉型工作方式,培育開放、協作的新型“大科學”研發模式,從而實現將材料從發現到應用的速度至少提高1倍,成本減半的目標。具體措施包括:(1)發展高通量材料模擬計算工具和方法,加快材料篩選和設計,減少耗時費力的“試錯實驗”;(2)發展和推廣高通量材料實驗技術及裝備,快速、準確地獲取材料計算所需大量的關鍵數據,對候選材料進行篩選和驗證;(3)發展和完善材料數據庫/信息學工具,有效管理與利用材料從發現到應用全過程的數據鏈。

經過充分廣泛的研討諮詢活動,我國材料界對材料基因組技術已形成基本共識,即有必要抓住這個機遇,儘快制定並實施中國版材料基因組計劃,以促進我國新材料產業的跨越式發展。為此從中央到地方科技管理機構都設立了一批項目對材料基因工程方向進行了支持。我國在開展材料基因組研究中並非一味跟蹤,既學習了美國材料基因組計劃的一些做法,也根據中國國情與自身思考,設置了與之不同的內容與側重。

材料基因組(materials genome)這個名詞的出現是受到人類基因組計劃的啟發。在生命世界中,人們發現脫氧核糖核酸是組成蛋白質的基本單元,其排列及缺陷結構被稱為生物基因組,它決定了生物體的功能及疾病。因此,生物基因組的信息可以用於預測從而改變生物體的性狀和功能。人類基因組計劃實施20多年來,人類對生物基因基礎數據的採集技術以及掌握程度發生了翻天覆地的變化,獲得全套人體基因圖譜的時間和成本已由2001年的數週和上億美元降至2015年的2 h和1000美元左右,根據對生物基因基礎數據的認識進而改良物種、治療疾病已開始成為現實。

與此類比,材料基本單元(原子、分子、功能團等)的排序及缺陷結構決定了材料的性質或功能,或可稱之為“材料基因組數據”。人們希望通過掌握材料基因組信息來實現對材料的按需設計。由於上述排序及缺陷結構取決於材料的熱力學合成參數與加工工藝,材料體系的成分-組織-工藝-性能間的關聯關係構成了材料設計的基礎。關於材料基因的定義,國內外雖多有討論,但眾說紛紜,迄今仍無統一標準,通常僅作為設計預測型材料研發模式的代稱。材料基因工程意味著通過交叉融合高通量模擬計算、高通量實驗和人工智能數據挖掘技術,使掌握成分-組織-工藝-性能間關聯規律的速度更快、效率更高、成本更少。

MGI 的3 種工作模式

在新型材料研發模式下,大致可以總結出材料基因工程的3種工作模式。

1)模式1:以實驗驅動的模式,基於高通量合成與表徵實驗,直接快速優化與篩選材料。這種模式的典型代表是高通量組合材料芯片技術。受集成電路芯片與基因芯片啟發,在一塊基底上,通過精妙設計,以任意元素為基本單元,組合集成並且快速表徵成千上萬種成分、結構、物相等。隨著實驗通量的大幅提高帶來研究效率質的轉變,使通常需數年完成的三元相圖(結構及物理特性)可在幾天內完成,實現材料搜索的“多-快-好-省”。在化學反應合成方面,Merck公司、Pfizer公司相繼開發了自動化高通量反應篩選平臺,能夠與直接測定反應產物對靶標蛋白的親和性,並進行排序。

2)模式2:以計算驅動的模式,或稱理性設計指導下的高效篩選。首先基於計算模擬,預測有希望的候選材料,縮小實驗範圍,再進行實驗驗證。Ceder研究組在美國Materials Project高通量計算平臺上,通過大規模自動計算流程並按照一定的判據對電池的電極材料、固態電解質材料進行篩選,例如從130000候選者中篩選出200多種潛在的鹼性電池電極材料,再進行實驗研究。Allison等在福特汽車公司設計了一套針對鋁合金的虛擬鑄造系統,根據產品設計和選材,利用有限元、相場模擬等方法,對發動機缸體的製造流程從材料製備、器件製造和加工工藝等進行了全方位的設計、模擬和實驗研究,實現了工藝過程和組織性能可設計可控制的效果。Olson 等結合計算相圖熱力學方法(CALPHAD)指導合金設計,在飛機起落架高強鋼Ferrium M54的開發中,成功地從Ferrium S53的8.5年週期縮短為5年。

3)模式3:以數據驅動的模式,或稱為材料信息學模式。基於大量數據,採用機器學習找出特徵性參量,進行數據挖掘(人工智能+數據),預測出候選材料。所謂機器學習,一個比較嚴謹的定義是指計算機代碼能從經驗E中學習完成以表現P為考量的任務T,且它在完成任務T方面的表現(由P考量)能隨著經驗E而改進。近年來,利用人工智能進行材料研究的成果開始大量湧現。Raccuglia等採用機器學習中決策樹方法從之前“不成功”的實驗數據中學習規律,用於成功預測新的金屬有機氧化物材料。對比有經驗的化學家人工判斷,機器預測結果成功率以89%∶78%勝出,充分展示了機器學習方法的強大能力。Xue等利用貝葉斯線性迴歸等多種迴歸模型加速了形狀記憶合金、壓電材料等的開發;Ren等報道了通過高通量實驗結果與機器學習模型間的迭代加速發現金屬玻璃的工作。2018年3月,Waller等發表了人工智能技術進行藥物自動化開發的工作,利用深度神經網絡+蒙特卡洛樹的方式實現了化學反應逆向合成路線設計。

從模式3中得到的一個重要啟示是:只有不好的“結果”,沒有不好的數據。結果好壞取決於人為判斷,是主觀的;而數據永遠是對自然規律的反映(如果排除了操作失誤的因素),是客觀的。在實際工作中,存在大量被認為與應用目標不符的“失敗”數據,通常被遺忘在數據本上多年,客觀上是對社會資源的巨大浪費。如能挖掘它們潛在的價值,相信會得到更多的啟示。

另一個重要的啟示是:人工智能方法擅長在紛繁的數據中發現、建立背後的關聯。材料是由極大數量原子構成的,描述材料的重要參量不僅有成分、結構,還包括缺陷等,十分複雜。材料性能通常是多個物理機制耦合的結果,很少只受單一因素影響。因此,僅僅建立起與某一個參量相關的簡單模型,很難描述。利用人工智能方法可以同時研究多參量耦合的效果,增加理解問題的維度。人工智能方法的引入對於理解與發現各種材料參數與性能間的關聯極有幫助,Mueller等和Liu等分別綜述了機器學習方法在材料學領域中的應用現狀。

當前,隨著硬件技術和軟件平臺的發展,雲計算使數據存儲和訪問成為一種廉價商品。當真正能獲取大量數據的時候,如何從中提取出有效信息則成為關鍵。人腦推理活動的本質是建立因素間的關聯性,每個人解決問題的能力各不相同,取決於知識的豐富程度和推理能力的高低。以統計、擬合算法為基礎的人工智能方法,利用計算機長於重複運算的特點,可以突破人腦所能關聯因素的數量限制,從而在高維參量空間中構建關聯關係。神經元網絡具有學習高層次抽象特徵的能力。利用深層神經元網絡(深度學習),已能夠在兩幅照片間構建像素級的關聯關係,使圖像判讀的精準度達到甚至超過了人腦的水平。

科學探索的4 種範式

數千年來,從人類認識自然的過程來看,科學探索跨越了實驗觀測、理論推演、計算仿真的階段,正進入“人工智能分析密集型數據”的“第四範式”。從遠古開始,人類對自然的認識是從親身經驗(也就是實驗觀測)開始的。17世紀前後,當實驗觀測積累達到一定程度,從現象中可以歸納總結出理論規律,人們開始使用數學方程這種簡明的語言來描述具有共性的現象及其規律,並由此通過假設推演出結論(理論推演)。最具代表性的理論如牛頓定律、熱力學三大定律、電磁波麥克斯韋方程、狹義及廣義相對論、規範量子場論等。然而,現實中許多問題的數學模型過於複雜,受限於求解能力,無法獲得解析解。於是,出現了數學方程的數值近似解。

自1946年電子計算機問世以來,特別是1980年以來,計算機的計算能力出現了爆炸式增長,模擬仿真技術也隨之快速發展。如今,根據已知關係模擬結果做出預估的方法,已經逐漸成為科學與技術領域通行的做法。

隨著數據量的迅速增長,科學探索正在進入數據密集型的第四範式。正如已故微軟公司著名科學家、圖靈獎獲得者吉姆·格雷(Jim Gray)在《The fourth paradigm》(《第四範式》)一書中所描繪的:“今天在科學的很多領域裡,科學家們已不再直接透過望遠鏡觀察,……新的模式是由儀器採集或模擬產生數據,經過軟件處理,將產生的信息或知識存儲在計算機裡。”應該看到,“第四範式”中的數據處理計算與“第三範式”中的模擬仿真計算有著截然不同的意義。模擬仿真計算是基於由已知物理規律決定的因果律的認識進行的推演,而數據密集型範式則是基於算法對數據進行分析,從而建立起多維參數間的複雜關聯關係。科學範式改變的基礎在於當今數字時代強大的數據產生能力和處理能力,同時它也為分析解決複雜體系科學問題提供了新的途徑。

材料基因工程的3種工作模式與科學探索的4個範式是密切關聯的。實驗驅動在認識過程上屬典型的“第一範式”,其加速效果的實質是以量取勝,類似於快速窮舉法;計算驅動是地地道道的“第三範式”,根據現有理論的模擬仿真計算,再進行少量的實驗驗證。這個過程避免了大量試錯實驗的進行,取得降本增效的結果。但不可否認,二者均是在傳統思維下基於事實的判斷或基於物理規律的推演,並未從根本上改變原有思維模式與工作套路。

數據驅動與前2種模式形成鮮明對比,它以大量數據為前提,運用機器學習、數據挖掘技術,更快、更準、更省地建立起成分-結構-工藝-性能間的關聯關係。數據驅動模式是科學“第四範式”在材料科學中的具體體現,它秉承了完全不同的思維邏輯,為材料科學引入了真正的革命性元素,也代表了認識的更高境界,它的全面應用必將產生顛覆性的效果。

鑑於認識範式的差別,材料基因工程數據驅動模式的研發路徑與傳統研發路徑有著較為根本性的不同,遠大於與實驗模式和計算模式間的差別。受限於人腦對信息的處理能力,傳統思維是以單一目標為導向,在實驗設計中儘量降低變量維度(基本上每次只變化一個參數),按照理論與經驗人為地確定探索方向。當結果符合目標方向,將沿同一方向繼續嘗試;如果與目標漸行漸遠,便進行調整。經過大量試錯,最終得到一條沿目標方向曲折前行、不斷漸近的軌跡。形成鮮明對照的是,數據驅動模式基於對大量數據進行分析,這些數據可能來自於現有數據庫,或高通量表徵,也可能通過高通量計算得到。它們覆蓋較廣闊的參數空間,其中既包含了傳統意義上與目標一致的“好”數據,也包含與目標不一致的“不好”數據,因此分佈不再侷限於起點至目標連線周邊,所得到的規律也將更具有普適性。簡單來說,傳統路徑是以目標為導向,追求直接效果;而數據驅動模式的路徑更加註重全局,通過對完整、系統的數據的分析,找出背後隱含的關係。顯然,數據驅動模式對問題的認識更加深刻,更加全面。

“數據+人工智能”是材料基因工程的核心

數據驅動模式代表了材料基因工程核心的理念和最先進的方法。互聯網時代令數據傳播、分享的門檻大大降低,移動終端設備的普及令數據的產生髮生了爆炸式的增長,計算機硬件計算能力的提升又令大數據的計算分析成為可能,從而催生了科學第四範式。隨著第四範式的誕生,所能解決問題的複雜度有進一步提升,在這樣的循環中推進了科學技術的發展。可以看到,在人工智能的時代,數據是最核心的資源,也是實踐材料科學第四範式的必要基礎。

當前數據分析在不同科學領域中的應用狀況,與這些領域中數據量是有著重要關係的。例如,天文學和粒子物理方面每年產生的數據超過1 PB,主要由大型科學裝置產生。美國的大型綜合巡天望遠鏡(LSST)每晚的觀測數據量是15TB。中國郭守敬望遠鏡(LAMOST)截至2016 年12 月已經發布了768 萬條光譜,成為世界上獲取光譜數目最多的望遠鏡。在生命科學領域中,數據則主要來自高通量實驗。根據維基百科報道,美國國立衛生研究院(NIH)的生物基因序列庫GenBank迄今已收錄了超過2億條基因序列,並正以大約每18個月翻一番的速度增長;深圳華大基因研究院每月僅原始測序相關的數據量就達到60TB 以上。與此同時,隨著計算模擬能力的不斷提高,高通量計算也成為大量數據的重要來源之一。

數據是材料基因組工程的要素之一,各國都十分重視材料數據庫的建設。美國國家標準技術院(NIST)Materials Data Facility收集的數據量已達到12.5TB;美國的Materials Project、OQMD和AFLOW等高通量計算平臺收錄了超過280萬種化合物數據;瑞士的Pauling File數據庫,收錄了4.6萬餘條相圖數據、32萬條晶體結構數據、12.5萬餘條物理性能數據,是世界上最大的無機化合物數據庫;英國的Granta Design公司提供的材料天地(Material Universe)和工藝天地(Process Universe)數據庫收錄了3900 種材料、240 種工藝的數據;日本物質·材料研究機構(NIMS)建設的MatNavi數據庫是關於高分子、陶瓷、合金、超導材料、複合材料和擴散的世界上最大的數據庫之一。據估計,中國公開的材料數據庫中也收錄了數百萬條材料數據。然而,由於材料的多樣性與複雜性,已獲得的材料數據只是滄海一粟,還遠不能滿足數據科學的要求。例如從元素週期表60 個元素中任取3 個元素組成三元體系,可組成近10萬個三元體系,按照數據密度為1%進行估算,每個三元體系5000個數據點(多維熱力學及物理性能參數),共應有5億個多維數據點;任取4個元素可組成200萬個四元體系,每個體系50萬個多維參數數據點,共應有10000億個多維數據點。因此要使材料科學全面進入科學探索的第四範式,必須首先解決材料數據匱乏這一全球性瓶頸問題。

材料基因工程的另一項重要任務是改革材料界多年來形成的封閉型工作方式,培育開放、協作的新型“大科學”研發模式。為了突破長期以來研究數據私有性的侷限,讓數據為全體研究者共享,荷蘭萊頓大學的Barend Mons等提出了數據可發現、可訪問、可交互、可重複使用的FAIR(findable,accessible,interoperable,reusable)數據原則。其中,數據可重複使用在材料基因工程中非常重要。傳統材料數據庫一般收集由源數據處理而得到的分析結果(如各種材料性能參數等),而源數據通常分散在實驗者手中,不被收錄,且源數據格式多樣,不便為其他人再次利用。再有,這些數據往往以特定應用為目標,包含的材料屬性相對有限,缺乏綜合性。這樣,數據可關聯的參數就比較有限。這與傳統材料研究方式與數據產生方式有極大關係。同時,符合材料基因工程思想的材料數據模型標準和存儲架構尚未建立,因此現有的材料數據庫大多不能滿足材料基因工程的需要。

作為在科學第四範式下的全新的材料科學研究套路,材料基因工程需要發展和建立新的技術體系及與之相適應的基礎設施。材料數據基礎設施建設應包括數據存儲庫、數據工具和e-合作平臺3個核心組成部分。針對中國當前的實際情況,一方面,需要建立以人工智能工具為基礎的數據平臺,同時構建起符合材料基因工程理念的數據庫,或將已有數據庫按照材料基因工程需要進行改造,更重要的是系統、快速地充實大量新數據。為此,快速獲取大量材料數據的能力成為關鍵,而高通量實驗與高通量計算技術恰恰為快速獲取大量數據提供了有效途徑,可以作為數據的重要來源。於是,材料基因工程的3個技術要素實現了內在的協同,形成了缺一不可的深度融合關係。因此除數據平臺外,材料基因工程基礎設施還必須包括高通量實驗平臺和高通量計算平臺。

材料基因工程數據除了體量大外,還應保證數據具有高度完整性、系統性、一致性和多參量綜合性。在理想條件下,這些數據可產生於一個集中建立或虛擬鏈接的平臺,或可稱之為“數據工廠”。實驗“數據工廠”可以是基於大科學平臺的大規模系統性的高通量綜合製備與表徵平臺,或集成原位製備和多參數表徵手段為一體的實驗設施,流水線般標準化地批量產生數據。計算“數據工廠”可以是各種高通量計算軟件及硬件平臺,通過批量計算產生大量系統的綜合的材料數據。利用數據標識碼技術,結合高通量實驗(或高通量計算)數據格式標準,就可以從實驗線站上導出記錄樣品信息、實驗條件和實驗源數據(或計算條件和計算源數據)的具有唯一標識的、符合FAIR原則的數據,供社會使用。數據工廠將數據產生由個體活動變為社會活動,數據由個體所有變為了社會資源,提高了共享程度,節約了社會成本,這種新型的數據產生形式必將引發材料科學的革命性變化。

迄今國際上尚未建成以標準化流水線般產生實驗數據的實驗平臺。當前提出的數據庫框架僅著眼於將各家產生的數據集中收集處理。如此收集到材料數據具有多源、分散、關聯關係複雜的特點,不方便使用。例如美國密西根大學的Materials Commons和NIST資助建立的Materials Data Facility等數據平臺則突出其數據收集的功能,將格式問題留給用戶自行處理。美國材料數據公司Citrine Informatics公司建立了以物理信息文件(PIF)為標準數據模式的Citrination平臺,試圖在普適性、靈活性和結構化之間找到平衡,使數據的存儲與使用過程儘可能簡單。

與之相比,將材料基礎數據在統一的公益性平臺上集中產生,可以極大地簡化由各家格式不統一帶來的麻煩。與其他國家相比,中國有可能建立集中的、系統的、為社會提供基礎數據的“數據工廠”。這也為中國在材料領域帶來機遇。

數據驅動模式是未來材料科學的趨勢

與科學“第四範式”相對應,材料基因組工程以前所未有的大量數據為基礎,將人工智能與高通量實驗數據採集和高通量計算深度融合,更快、更準地獲得成分-結構-工藝-性能間的關係,從而實現對先進材料及工藝進行設計預測。因此,以數據為基礎是材料基因工程方法與傳統方法的根本不同點。高通量是數據時代的需求,數據採集技術是技術革命要素,而數據分析技術則是思維模式的變革,帶來更加深刻、更加久遠的變化。可以預見,材料科學的未來將構築於數據與人工智能的基礎之上。

人工智能在材料中的應用正在成為大數據經濟的下一個戰場。事實上,2017年12月,國際領先的人工智能企業DeepMind(AlphaGo 和AlphaGo Zero 的開發者)的聯合創立人Hassabis表示已將下一個挑戰目標放在了材料科學問題上。2018 年4 月19 日,美國Citrine Informatics公司宣佈騰訊和奧地利私募股權公司B&C工業控股聯合向他們投資8百萬美元用於發展材料人工智能,則是這個趨勢的最新明證。

結 論

在新型材料研發模式下,可以大致總結出材料基因工程的3種工作模式,即實驗驅動、計算驅動和數據驅動。以“數據+人工智能”為標誌的數據驅動模式圍繞數據產生與數據處理展開,代表了材料基因工程的核心理念與發展方向。實現材料研發由“試錯法”向“數據+人工智能”科學“第四範式”的根本轉變,將更快、更準、更省地獲得成分-結構-工藝-性能間的關係。目前材料數據的數量還遠不能滿足數據驅動模式的要求,因此,建設快速獲取大量材料數據的能力是關鍵,基於高通量實驗與高通量計算技術的“數據工廠”是滿足材料基因工程數據需求的重要平臺。在此框架下,材料基因工程的3個技術要素缺一不可,實現了完美的協同。當前,人工智能在材料中的應用正在成為大數據經濟的下一個戰場。未來的材料科學將構築於數據與人工智能的基礎之上。應該抓住材料基因組計劃歷史契機,搶佔技術創新高地和發展先機,實現材料領域的彎道超車,擺脫中國戰略性關鍵材料受制於人的窘境。(責任編輯 劉志遠)

基金項目:國家重點研發計劃項目(2017YFB0701900);上海市科學技術委員會研發平臺專項(16DZ2260602)

參考文獻(略)

數據+人工智能是材料基因工程的核心

作者簡介:汪洪,上海交通大學材料基因組聯合研究中心,教授,研究方向為材料基因工程。

注:本文發表於《科技導報》2018 年第14 期,敬請關注。


分享到:


相關文章: