Arm首代AI架構如此彪悍!集英偉達、英特爾、賽靈思優勢於一體

在過去的幾年中,有幾家芯片創業公司一直致力於尋找新的方法來有效地訓練和執行神經網絡,但在現有技術和理念的基礎上,其實真的必要從頭做起嗎?

本週,在一年一度的Hot Chips會議上,ARM展示了其第一代機器學習處理器,預計今年晚些時候,ARM的合作伙伴就可以使用其IP。

兼採眾長,ARM“拼”出世界最好的AI處理器

該處理器架構名為“Trillium”,是由一些我們並不陌生的元素與ARM的邏輯核心捆綁而來的,對於那些需要Nvidia Volta GPU的TensorCore功能的人來說,ARM這款處理器可能意義重大,比如DeePhi神經網絡壓縮技術(現在是Xilinx的一部分)、FPGA的可編程性,以及DSP的低功耗處理能力。

換句話說,ARM可能剛剛“拼湊”出了世界上最好的AI處理器,這對於那些在大型通用設備上放置大量額外空間的芯片製造商來說,可能會帶來很大的麻煩。

ARM的技術總監Ian Bratt本週在Hot Chips上表示,ARM首次涉足AI處理器的設計目標是儘可能的推廣,以便能夠滿足服務器端AI的市場需求,並將自家AI處理器更多用於汽車和具有物聯網需求的小型設備上。

Bratt表示:

“在研發第一代機器學習處理器的過程中,我們初期出現了一些失誤,將舊框架套用在新問題上。我們知道GPU、CPU和DSP是如何用於機器學習上的,但我們開始研究如何能夠清晰地利用每一項技術。我們可以利用CPU的技術處理控制和可編程性問題,用GPU的技術解決數據壓縮、數據移動和計算密度等問題,這些都可以提高DSP的效率和開源軟件的開發。”

如下圖所示,ARM的機器學習架構並沒有什麼特別之處,但值得注意的是,該架構吸收了從硬件、壓縮和編譯器方面最成功的創新中的優點。

Arm首代AI架構如此彪悍!集英偉達、英特爾、賽靈思優勢於一體

搭建架構的模塊是計算引擎,每塊為64 KB的SRAM片,共16塊。 MAC引擎(與英偉達的TensorCore不同)是執行卷積化的地方,可編程層引擎負責處理網絡各層之間的大部分必要的shuffling。該架構具有DMA引擎,用於與外部存儲器接口進行通信。 ARM自己的Cortex技術負責的引擎控制。

不再需要緩存,控制流程大大簡化

對於一家以創新為基礎公司而言,ARM正在走一條自己的獨特道路。公司首次涉足人工智能芯片,芯片的組件都是大家並不陌生的,ARM在用於神經網絡的點積(dot product)引擎上做出了一些關鍵性創新,提升了執行效率、降低了網絡噪音。

我們很可能忽略的一個要素是,靜態調度(static scheduling)的價值,這是影響芯片整體性能和效率的關鍵部分。

存儲器的訪問模式完全是可靜態分析的,並且很容易理解和映射,但是許多設備沒有利用這一點。 CPU具有複雜的高速緩存層次結構,可以用於非確定性存儲器訪問進行優化,但對於確定性的神經網絡,可以提前將所有內容放在內存中。然後,編譯器為不同的組件生成命令流(由ARM控制處理器進行編配),到達寄存器以控制這些組件。

簡而言之就是:不需要緩存。此外還有一個好處是流量控制流程被大大簡化,可以進一步降低能耗,提升處理器性能的可預測性。

處理卷積化的方式可以進一步提高效率。下圖中的SRAM突出了編譯器是如何為輸入特徵映射和壓縮模型分配部分資源的。每個計算引擎都將使用跨越不同計算引擎的不同特徵映射。

Arm首代AI架構如此彪悍!集英偉達、英特爾、賽靈思優勢於一體

ARM的MAC引擎可以做8個16×16點積。我們已經討論了這一點的重要性,但是在這些操作中有很多零,可以在MAC引擎中進行檢測和調整,以避免浪費更多的能量。

Arm首代AI架構如此彪悍!集英偉達、英特爾、賽靈思優勢於一體

ARM芯片還具備可編程層引擎,旨在通過可編程性“預見”處理器的。它使用Cortex CPU技術來支持非卷積運算符,以及向量和神經網絡擴展。

使用機器學習處理器特徵映射壓縮技術可以獲得更高的效率,這些技術聽起來和DeePhi在CNN壓縮上的作用類似。

打造通用平臺,實現機器學習與現有流程的整合

Bratt表示,目前ARM的機器學習業務部門擁有150名員工,隨著對機器學習需求的不斷增長,這一數字也會不斷增加,並將機器學習整合到新的和現有的工作流程和配置中。他表示,我們的目標是讓這項工作橫跨一系列細分市場,但是要為一類用戶提供一個具備其所需全部功能的通用平臺並不簡單。

不用高速緩存、精簡壓縮流程、使用混合精度算法,並與精簡化的SRAM片上計算相結合,將其移植到密集的點積引擎上,這些都使得ARM的芯片IP成為市場上的一個引人注目的焦點,而且可以針對關鍵的工作負載做進一步的細化。

與某些AI專用處理器相比,ARM處理器增加了高帶寬內存(HMC)可能使其更容易識別,但是需要授權用戶瞭解這些組件系統中協同工作的方式。 ARM工程師真正從生態系統中汲取了最佳的AI處理器技術,並使用開源軟件掛鉤,可能大幅擴大授權許可範圍。

Arm首代AI架構如此彪悍!集英偉達、英特爾、賽靈思優勢於一體

上圖所示為Inception V3上的8X8塊,突出表示了通過零/非零濾波方法實施的無損壓縮結果,顯著降低了神經網絡的規模。壓縮結果保留在內部SRAM中,並且在SRAM中保留了網絡修剪技術,以便在需要時使用。

對這類技術進行授權時的選擇並不多,同時ARM也要確定,在現有的神經網絡處理器中有哪些最成功的、值得汲取的技術和組件。

參考鏈接:

https://www.nextplatform.com/2018/08/22/arm-stands-on-shoulders-of-giants-with-first-generation-ai-processor/

來源:nextplatform.com 新智元 編譯:大明


分享到:


相關文章: