02.02 npj: 可靠、可解釋的機器學習方法加速材料發現


npj: 可靠、可解釋的機器學習方法加速材料發現

在商業應用(例如,產品推薦和廣告)中機器學習(ML)成功的推動下,人們大力開發這些工具來分析科學數據。新興的材料信息學學科就是一種類似的努力,該學科應用ML方法,通過學習結構-屬性關係來加速材料的選擇、開發和發現。材料信息學研究人員越來越多地在其工作流程中採用ML方法來預測材料的物理、力學、光電和熱特性(如,晶體結構、熔化溫度、形成焓、帶隙)。儘管商業應用和材料科學應用的總體目標可能相似,但相應的數據、任務和需求之間存在根本差異。在不仔細考慮機器學習的假設和侷限性的情況下,應用機器學習技術可能導致最佳機會錯失,最糟糕的是浪費大量資源和錯誤的科學推斷。該研究提供了材料信息學界必須克服的獨特挑戰,以使材料科學中的ML解決方案需要得到普遍認可。


應用材料信息學過程中,可靠且可解釋的機器學習解決方案的構建面臨挑戰,該研究為應對這一挑戰邁出了第一步。美國勞倫斯•利弗莫爾國家實驗室的Bhavya Kailkhura和T. Yong-Jin Han共同領導的團隊作出的主要貢獻包括兩個方面。首先,以代表性不充分和分佈失衡的數據作機器學習訓練的同時,在現有的材料信息學通道中找出了一些訓練、測試和量化不確定性步驟中的缺陷。他們的發現引起了人們對現有材料信息學通道可靠性的高度關注。其次,為克服這些挑戰,他們提出了一種通用的、可解釋的、可靠的機器學習方法,用於從代表性不足和分佈失衡的數據中進行可靠的學習。


他們提出的解決方案概括為:1)學習架構偏向於訓練過程,以實現不平衡域的目標;2)採用抽樣方法來操縱訓練數據的分佈,從而允許使用標準的ML模型;3)採用可靠的評估指標和不確定性量化方法,以更好地捕獲應用程序偏差。與其他針對每個屬性而訓練獨立迴歸模型的現有方法相反,他們為提高可解釋性,採用了一種簡單且計算便宜的分區方案:首先根據材料的屬性值,將數據劃分為若干材料亞類,然後為每個組訓練各自的更簡單的迴歸模型,這樣可低成本地增強“可解釋性”,較以前的人工方法還提高了預測的準確性。


為了進一步提高ML系統的可解釋性,作者在框架中添加了基本原理生成器組件。基本原理生成器的目標體現在兩個方面:1)提供與單個預測相對應的解釋;2)提供與迴歸模型相對應的解釋。對於單個預測,基本原理生成器提供了有關原型(或相似但已知的化合物)的解釋。這有助於材料科學家使用他自己領域的知識來驗證類似的已知或原型化合物是否滿足所施加的要求或約束。另一方面,對於迴歸模型,基本原理生成器提供了有關整個材料亞類的全局說明。最後,他們提出了一種新的評估指標和置信度評分,以更好地量化置信度,並建立對ML預測的信任度。通過將其應用於兩類實例,他們證明了該技術的適用性:1)預測晶體化合物的五種不同的物理特性,2)確定了潛在穩定的太陽能電池材料。


該文近期發表於npj Computational Materials 5: 108 (2019),英文標題與摘要如下,點擊https://www.nature.com/articles/s41524-019-0248-2可以自由獲取論文PDF。


npj: 可靠、可解釋的機器學習方法加速材料發現


Reliable and explainable machine-learning methods for accelerated material discovery


Bhavya Kailkhura, Brian Gallagher, Sookyung Kim, Anna Hiszpanski & T. Yong-Jin Han


Despite ML’s impressive performance in commercial applications, several unique challenges exist when applying ML in materials science applications. In such a context, the contributions of this work are twofold. First, we identify common pitfalls of existing ML techniques when learning from underrepresented/imbalanced material data. Specifically, we show that with imbalanced data, standard methods for assessing quality of ML models break down and lead to misleading conclusions. Furthermore, we find that the model’s own confidence score cannot be trusted and model introspection methods (using simpler models) do not help as they result in loss of predictive performance (reliability-explainability trade-off). Second, to overcome these challenges, we propose a general-purpose explainable and reliable machine-learning framework. Specifically, we propose a generic pipeline that employs an ensemble of simpler models to reliably predict material properties. We also propose a transfer learning technique and show that the performance loss due to models’ simplicity can be overcome by exploiting correlations among different material properties. A new evaluation metric and a trust score to better quantify the confidence in the predictions are also proposed. To improve the interpretability, we add a rationale generator component to our framework which provides both model-level and decision-level explanations. Finally, we demonstrate the versatility of our technique on two applications: 1) predicting properties of crystalline compounds and 2) identifying potentially stable solar cell materials. We also point to some outstanding issues yet to be resolved for a successful application of ML in material science.


npj: 可靠、可解釋的機器學習方法加速材料發現


分享到:


相關文章: