你以為這是個U盤?別搞笑了,它是人工智能AI加速器!

想象個性化人工智能(AI),您的智能手機變得更像智能助手 - 即使在嘈雜的房間內也能識別您的聲音,瞭解不同社交場合的背景,或只提供與您真正相關的信息,從洪水中拔出每天到達的數據。這些功能可能很快就會觸手可及 -

但要實現這一目標需要快速,強大,高能效的AI硬件加速器。

你以為這是個U盤?別搞笑了,它是人工智能AI加速器!

在Nature最近發表的一篇論文中,IBM Research AI團隊展示了深度神經網絡(DNN)培訓,其中包含大量模擬內存設備,其精度與基於圖形處理單元(GPU)的系統相同。我們相信這是邁向下一次AI突破所必需的硬件加速器的重要一步。為什麼?因為提供AI的未來將需要大大擴展AI計算的規模。

谷歌在今年也發佈自己的用於邊緣計算的Edge TPU,以及相關設備:AIY Projects Edge TPU Dev Board和Edge TPU Accelerator 圍繞谷歌新推出的專用邊緣TPU。其中,Edge TPU Accelerator就是一款 USB 設備,可為系統添加 Edge TPU 處理器。這個小巧的設備擁有一個 USB Type-C 插槽,可以連接到任何基於 Linux 系統來執行加速 ML 推理。外殼有一個可連接主機板的安裝孔,可連接 Raspberry Pi Zero 或開發者的定製設備。

你以為這是個U盤?別搞笑了,它是人工智能AI加速器!

無論是在雲端還是在邊緣,DNN都必須變得更大,更快 - 這意味著能效必須大幅提升。雖然更好的GPU或其他數字加速器可以在某種程度上提供幫助,但是這樣的系統不可避免地花費大量時間和精力將數據從存儲器移動到處理和返回。我們可以通過在模擬域中直接在數據位置執行AI計算來提高速度和能效 - 但這隻有在生成的神經網絡與傳統數字硬件實現的神經網絡一樣智能時才有意義。

涉及連續可變信號而不是二進制0和1的模擬技術對其精度具有固有的限制 - 這就是現代計算機通常是數字計算機的原因。然而,人工智能研究人員已經開始意識到,即使數字精度降低到幾乎任何其他計算機應用都太低的水平,他們的DNN模型仍能正常工作。因此,對於DNN,可能模擬計算也可能起作用。

然而,直到現在,還沒有人最終證明這種模擬方法可以完成與現有的傳統數字硬件上運行的軟件相同的工作。也就是說,DNN真的可以用這些技術訓練到相當高的精度嗎?如果由此產生的分類準確度總是低得令人無法接受,那麼在訓練DNN時更快或更節能是沒有意義的。

在我們的論文中,我們描述了模擬非易失性存儲器(NVM)如何有效地加速“反向傳播”算法,這是許多最新AI技術進步的核心。這些存儲器允許使用基礎物理學在這些算法中使用的“乘法 - 累加”運算在模擬域中,在權重數據的位置處並行化。我們只需將一個小電流通過一個電阻器連接到一根電線上,然後將許多這樣的電線連接在一起,讓電流積聚起來,而不是將大數電路相乘並將數字相加。這讓我們可以同時執行許多計算,而不是一個接一個地執行。而不是在數字存儲芯片和處理芯片之間的長途旅行中傳輸數字數據,我們可以在模擬存儲器芯片內執行所有計算。

然而,由於當今模擬存儲器設備固有的各種缺陷,以前在大型真實NVM設備陣列上直接進行DNN訓練的演示未能達到與軟件訓練網絡相匹配的分類精度。

你以為這是個U盤?別搞笑了,它是人工智能AI加速器!

Movidius 加速器

通過將相變存儲器(PCM)器件中的長期存儲,傳統互補金屬氧化物半導體(CMOS)電容器的近線性更新與用於抵消器件到器件可變性的新技術相結合,我們完成了這些不完善並實現了在各種不同網絡上的軟件等效DNN精度。這些實驗使用混合硬件 - 軟件方法,將易於精確建模的系統元件的軟件模擬(例如CMOS器件)與PCM器件的全硬件實現相結合。對於我們的神經網絡中的每個權重使用真實的模擬存儲器設備是必不可少的,因為這種新型設備的建模方法經常無法捕獲它們可以展示的所有設備到設備的可變性。

使用這種方法,我們驗證了完整芯片確實應該提供相同的精度,因此可以完成與數字加速器相同的工作 - 但速度更快,功耗更低。鑑於這些令人鼓舞的結果,我們已經開始探索原型硬件加速器芯片的設計,作為IBM Research Frontiers Institute項目的一部分。

你以為這是個U盤?別搞笑了,它是人工智能AI加速器!

從這些早期的設計工作中,我們能夠提供,作為我們的自然論文的一部分,初步估計這種基於NVM的芯片用於訓練全連接層的潛力,計算能效(28,065 GOP /秒/ W) )和每面積吞吐量(3.6 TOP / sec / mm2)。這些值超出了當今GPU的規格兩個數量級。此外,完全連接的層是一種神經網絡層,其實際GPU性能經常遠低於額定規格。

本文指出,儘管存在現有模擬存儲設備的不完善之處,我們的基於NVM的方法可以提供與軟件等效的訓練精度以及加速度和能量效率的數量級改進。接下來的步驟將是在更大的網絡上演示相同的軟件等效性,這些網絡需要大型,完全連接的層 - 例如反覆連接的長短期存儲器(LSTM)和門控循環單元(GRU)網絡,這些網絡背後是機器翻譯的最新進展,字幕和文本分析 - 以及在基於NVM的原型硬件加速器上設計,實現和優化這些模擬技術。針對此應用進行了優化的新型和更好形式的模擬存儲器有助於進一步提高面密度和能效。


分享到:


相關文章: