Arm首代AI架構如此彪悍！集英偉達、英特爾、賽靈思優勢於一體科技頭條網

在過去的幾年中，有幾家芯片創業公司一直致力於尋找新的方法來有效地訓練和執行神經網絡，但在現有技術和理念的基礎上，其實真的必要從頭做起嗎？

本週，在一年一度的Hot Chips會議上，ARM展示了其第一代機器學習處理器，預計今年晚些時候，ARM的合作伙伴就可以使用其IP。

兼採眾長，ARM“拼”出世界最好的AI處理器

該處理器架構名為“Trillium”，是由一些我們並不陌生的元素與ARM的邏輯核心捆綁而來的，對於那些需要Nvidia Volta GPU的TensorCore功能的人來說，ARM這款處理器可能意義重大，比如DeePhi神經網絡壓縮技術（現在是Xilinx的一部分）、FPGA的可編程性，以及DSP的低功耗處理能力。

換句話說，ARM可能剛剛“拼湊”出了世界上最好的AI處理器，這對於那些在大型通用設備上放置大量額外空間的芯片製造商來說，可能會帶來很大的麻煩。

ARM的技術總監Ian Bratt本週在Hot Chips上表示，ARM首次涉足AI處理器的設計目標是儘可能的推廣，以便能夠滿足服務器端AI的市場需求，並將自家AI處理器更多用於汽車和具有物聯網需求的小型設備上。

Bratt表示：

“在研發第一代機器學習處理器的過程中，我們初期出現了一些失誤，將舊框架套用在新問題上。我們知道GPU、CPU和DSP是如何用於機器學習上的，但我們開始研究如何能夠清晰地利用每一項技術。我們可以利用CPU的技術處理控制和可編程性問題，用GPU的技術解決數據壓縮、數據移動和計算密度等問題，這些都可以提高DSP的效率和開源軟件的開發。”

如下圖所示，ARM的機器學習架構並沒有什麼特別之處，但值得注意的是，該架構吸收了從硬件、壓縮和編譯器方面最成功的創新中的優點。

搭建架構的模塊是計算引擎，每塊為64 KB的SRAM片，共16塊。 MAC引擎（與英偉達的TensorCore不同）是執行卷積化的地方，可編程層引擎負責處理網絡各層之間的大部分必要的shuffling。該架構具有DMA引擎，用於與外部存儲器接口進行通信。 ARM自己的Cortex技術負責的引擎控制。

不再需要緩存，控制流程大大簡化

對於一家以創新為基礎公司而言，ARM正在走一條自己的獨特道路。公司首次涉足人工智能芯片，芯片的組件都是大家並不陌生的，ARM在用於神經網絡的點積（dot product）引擎上做出了一些關鍵性創新，提升了執行效率、降低了網絡噪音。

我們很可能忽略的一個要素是，靜態調度（static scheduling）的價值，這是影響芯片整體性能和效率的關鍵部分。

存儲器的訪問模式完全是可靜態分析的，並且很容易理解和映射，但是許多設備沒有利用這一點。 CPU具有複雜的高速緩存層次結構，可以用於非確定性存儲器訪問進行優化，但對於確定性的神經網絡，可以提前將所有內容放在內存中。然後，編譯器為不同的組件生成命令流（由ARM控制處理器進行編配），到達寄存器以控制這些組件。

簡而言之就是：不需要緩存。此外還有一個好處是流量控制流程被大大簡化，可以進一步降低能耗，提升處理器性能的可預測性。

處理卷積化的方式可以進一步提高效率。下圖中的SRAM突出了編譯器是如何為輸入特徵映射和壓縮模型分配部分資源的。每個計算引擎都將使用跨越不同計算引擎的不同特徵映射。