利用內存式運算架構助力AI加速器,運算速度是現行GPU一萬倍!

利用內存式運算架構助力AI加速器,運算速度是現行GPU一萬倍!

新創公司、企業巨擘和學術界開始重新審視十年前開發的處理器架構,看好它或許剛好就是機器學習(machine learning)的理想選擇。他們認為,“內存式運算”(In-Memory Computing;IMC)架構可望推動新型的人工智能(AI)加速器進展,使其速度較現行的GPU更快1萬倍。

這些處理器承諾可在CMOS微縮速度放緩之際擴展芯片性能,而要求密集乘法累積數組的深度學習算法也正逐漸獲得動能。這些芯片雖然距離商用化上市還有一年多的時間,但也可能成為推動新興非揮發性內存成長的引擎。

例如,新創公司Mythic瞄準在閃存(flash)數組內部進行神經網絡運算任務,致力於從模擬領域降低功耗。該公司的目標是在2019年底量產芯片,成為率先推出這一類新芯片的公司之一。

美國聖母大學(Notre Dame)電子工程系系主任Suman Datta說:“在我們學術界大多數的人認為,新興內存將成為實現內存處理器(processor-in-memory;PIM)的技術之一。採用新的非揮發性內存將意味著創造新的使用模式,而內存式運算架構將是關鍵之一。”

Datta指出,在1990年代,有幾位學者試圖打造這樣的處理器。諸如EXECUBE、IRAM和FlexRAM之類的設計都“失敗了,而今,隨著相變內存(PCM)、電阻式RAM (RRAM)和STT MRAM等新興內存出現,以及業界對於機器學習硬件加速器的興趣濃厚,開始振興這個領域的研究。不過,據我所知,大部份的展示都還是在組件或組件數組層級進行,而不是一個完整的加速器。”

其中一家競爭對手來自IBM於2016年首次披露的“電阻處理器”(Resistive Processing Unit;RPU)。這是一款4,096 x 4,096交叉數組的模擬組件。

IBM研究員Vijay Narayanan認為,“其挑戰在於找出正確的模擬內存元素是什麼——我們正在評估相變、RRAM和鐵電。”Vijay Narayanan同時也是一位材料科學家,他主要的研究領域是在高K金屬閘極。

在2015年,美國斯坦福大學(Stanford University)也曾經發布在這一領域的研究。中國和韓國的研究人員也在追求這一理念。

為了實現成功,研究人員需要找到兼容於CMOS晶圓廠的內存組件所需材料。此外,Narayanan說,「真正的挑戰」就在於必須在施加電壓時展現對稱的電導或電阻。

利用內存式運算架構助力AI加速器,運算速度是現行GPU一萬倍!

IBM Research的材料科學家Vijay Narayanan表示,大多數用於AI的內存處理器仍處於研究階段,距離可上市的時間約三至五年 (來源:IBM)

關於未來晶體管的幾點思考

IBM至今已經制造出一些離散式組件和數組,但並不是一款具有4Kx4K數組的完整測試芯片,也尚未採用目前所認為的理想材料。Narayanan表示,IBM的Geoff Burr在500 x 661數組上採用相變材料進行深度神經網絡(DNN)訓練,而其結果顯示“合理的精確度和加速度”。

“我們正穩步前進,但瞭解還必須改善現有的材料,而且也在評估新材料。”

IBM希望使用模擬組件,以便能夠定義多個電導狀態,從而較數字組件更有助於為低功耗操作開啟大門。該公司還看好大型數組可望成為平行執行多項AI操作的大好機會。

Narayanan樂觀地認為,IBM可以利用其於高k金屬閘極方面累積的多年經驗,找到調整AI加速器電阻的材料。他花了十幾年的時間,才將IBM在該領域的專業知識從研究轉向商業產品,並與格芯(Globalfoundries)和三星(Samsung)等業界夥伴合作。

展望未來,IBM將致力於開發閘極全環(GAA)晶體管,將納米片用於7nm節點以外的應用。他認為這一類的設計並不存在根本的障礙,而只是實施的問題。

除了納米片之外,研究人員正在探索負電容場效晶體管(FET),這些FET可在電壓變化很小的情況下提供較大的電流變化。從研究人員發現這種摻雜氧化鉿是鐵電材料,而且可能兼容於CMOS後,過去這五年來,這種想法越來越受到關注。

但Narayanan也說,“目前還有很多反對者以及同時支持二者的人。”

“我們的研究顯示,負電容是一種短暫的效應,”Notre Dame的Datta說,“因此,當極化開關切換時,通道電荷得以暫時啟動,而一旦瞬時穩定後就不會再取得任何結果。”

美國加州大學伯克利分校(UC Berkeley)的研究人員則“相信這是一種重要的‘新狀態’。因此,故事仍在繼續發展中,可以說大部份的公司都在內部進行評估中。”



分享到:


相關文章: