訓練神經網絡碳排放是開車5倍 麻省理工的新系統可以降到3位數

訓練神經網絡碳排放是開車5倍 麻省理工的新系統可以降到3位數

隨著人工智能的持續火熱和不斷髮展,暴露的問題也越來越多,其中的某些倫理問題更是社會關注的焦點。不過,近期有人發現,它還存在嚴重的可持續發展問題。

去年6月,馬薩諸塞大學阿默斯特分校的研究人員發佈了一份令人吃驚的報告。他們預計,訓練和搜索某種神經網絡結構所需的能量會造成約626000磅(約283948公斤)二氧化碳的排放,這相當於美國汽車平均壽命排放量的近5倍。

當模型進入部署階段,這個問題變得更加嚴重。在這個階段,需要在不同的硬件平臺上部署深層神經網絡,而每個平臺具有不同的屬性和計算資源。

麻省理工學院的研究人員開發了一種新的自動化人工智能系統,用於訓練和運行某些神經網絡。結果表明,通過在一些關鍵方面提高系統的計算效率,可以減少碳排放量——在某些情況下,可以降低到低3位數。

神經網絡會自動搜索大量的設計空間,尋找適合特定硬件平臺的網絡架構。不過,其仍然存在一個培訓效率問題:每個模型都必須經過選擇,然後從頭開始為其平臺架構進行培訓。

在即將到來的物聯網時代,從10美元的物聯網設備到600美元的智能手機,可能會有幾十億設備接進某個網絡。如果要為所有這些網絡培訓架構,其消耗將是驚人的。

研究人員以人工智能領域的最新進展AutoML為基礎建立一個新系統。在這個“一勞永逸”(OFA)的網絡系統中,他們只訓練一個大型母網絡,其中嵌套了大量的子網絡,這些子網絡很少從母親網絡激活。母網絡與所有子網絡共享其所有學習到的權重——這意味著它們本質上是預先訓練過的。因此,每個子網可以在推理時獨立運行而無需重新訓練。

該團隊還訓練了一個具有多種結構配置的卷積神經網絡,包括不同數量的層和“神經元”、不同的濾波器尺寸和不同的輸入圖像分辨率。給定一個特定的平臺,系統使用OFA作為搜索空間,根據與該平臺的功率和速度限制相關的精度和延遲權衡來查找最佳子網。

本質上OFA是將模型訓練和結構搜索分離,並將一次性訓練成本分散到多個推理硬件平臺和資源約束上。

這依賴於“漸進收縮”算法,該算法有效地訓練OFA網絡以同時支持所有子網。它從訓練最大規模的完整網絡開始,然後逐步縮小網絡的規模以包括更小的子網絡。較小的子網在大的子網的幫助下被訓練成一起成長。最後,支持所有不同大小的子網,允許根據平臺的功率和速度限制進行快速專門化。它支持許多硬件設備,在添加新設備時,培訓成本為零。

此外,OFA不影響準確性或推理效率。相反,它在移動設備上提供最先進的ImageNet精度。而且,與最先進的行業領先的卷積神經網絡模型相比,研究人員說OFA提供了1.5-2.6倍的加速,具有更高的精確度。

“(我們的)目標是更小、更環保的神經網絡,”電氣工程與計算機科學系助理教授Song Han說,“到目前為止,探尋高效的神經網絡結構已經產生了巨大的碳足跡,但我們的新方法可以將足跡縮小几個數量級。”

這項工作在IBM捐給麻省理工學院的高效計算集群Satori上進行,每秒能夠執行2萬億次計算。

這篇論文將於下週在國際學習代表大會上發表。與韓寒一起發表論文的還有來自EECS、MIT-IBM沃森人工智能實驗室和上海交通大學的四名本科生和研究生。

編譯/前瞻經濟學人APP資訊組

參考資料:

[1]https://www.eurekalert.org/pub_releases/2020-04/miot-rtc042320.php


分享到:


相關文章: