美國E級計算項目建立機器學習技術中心

美國正在推進的E級(百億億次級)計算項目建立了一個專注於機器學習技術的聯合設計中心。

美國E級計算項目(Exascale Computing Project,ECP)建立了一個聯合設計中心,將重點放在機器學習(ML)技術上。新中心名為ExaLearn,將針對科學和工程應用項目以及在ECP名下開展的其他工作開發百億億次級機器學習軟件。具體而言,其目標是建立“可擴展且可持續的機器學習軟件框架,讓應用科學家和應用數學及計算機科學社區能夠參與學習算法的聯合設計。”

這項工作還將包括與美國能源部(DOE)的PathForward供應商合作,以幫助開發適用於各個硬件平臺的軟件,其中包括克雷(Cray)、IBM、英特爾、慧與科技(HPE)、英偉達和AMD正在開發的處理器及系統。

可擴展性是此類軟件目前面臨的最大限制之一。儘管最新的萬億次浮點運算GPU可以相當高效地運行機器學習代碼,將應用程序擴展到為數不多的此類設備之外仍然是一項挑戰。對於研究人員而言,將此軟件用於百億億次級甚至千萬億次級運算在很大程度上是未知的領域。

儘管此機器學習軟件的目標是未來的百億億次級系統,但值得注意的是,美國能源部的兩臺超級計算機Summit和Sierra已經可以在此種規模執行此類代碼。Summit有能力提供超過300億億次浮點運算的深度學習性能,而Sierra可以提供約200億億次浮點運算的性能。兩臺計算機的性能都得益於其NVIDIA V100 GPU中的自定義Tensor內核。Summit已藉此以188億億次浮點運算的性能運行比較基因組學代碼。協同設計工作實際上做到了在無論使用何種底層硬件的情況下,都能夠以與更傳統的模擬和建模代碼相同的方式為所有百億億次級超級計算機開發此類應用程序。

新中心的工作人員將包括來自與ECP合作的八個美國能源部核心國家實驗室的研究人員和其他專家,即布魯克海文國家實驗室(Brookhaven)、阿貢國家實驗室(Argonne)、勞倫斯伯克利國家實驗室(Lawrence Berkeley)、勞倫斯利弗莫爾國家實驗室(Lawrence Livermore)、洛斯阿拉莫斯國家實驗室(Los Alamos)、橡樹嶺國家實驗室(Oak Ridge)、西北太平洋國家實驗室(Pacific Northwest)和桑迪亞國家實驗室(Sandia)。布魯克海文國家實驗室計算科學計劃副主任Francis J. Alexander(弗朗西斯·J·亞歷山大)將成為這項工作的首席科學家。

亞歷山大說道:“我們的多實驗室團隊對於能夠有機會解決其中一部分最重要的百億億次級機器學習挑戰感到非常激動。當然,私營部門已經在機器學習領域投入了大量資金。但是,要想推動我們在能源部開展的重要科學和國家安全工作,還有許多工作要做。我很高興能夠代表我們的協作團隊負責這項工作。”


分享到:


相關文章: