機器學習提升480倍!Arm推最新Cortex-M處理器,搭首款microNPU

機器學習提升480倍!Arm推最新Cortex-M處理器,搭首款microNPU

芯東西(公眾號:aichip001)編 | 韋世瑋

芯東西2月11日消息,今天,Arm推出其人工智能(AI)平臺重要新品,包括全新機器學習IP Cortex-M55處理器,以及Ethos-U55神經網絡處理器

其中,Ethos-U55是Arm針對Cortex-M系列處理器推出的首款微神經網絡處理器(microNPU),與Cortex-M系列處理器相配合,能進一步提升機器學習性能與能效。

Arm稱,Cortex-M55與Ethos-U55的結合使用,能夠為微控制器帶來480倍的機器學習性能飛躍。

隨著機器學習應用在各個行業中愈發普及,在Arm看來,終端AI市場也將在未來幾年內呈現爆炸性增長,終端智能設備市場將進一步發展。

因此,Arm通過推出全新IP內核與NPU,在擴展自身AI產品組合的同時,也幫助客戶降低芯片開發成本,滿足他們提升終端數字信號處理(DSP)和機器學習能力的需求。

機器學習提升480倍!Arm推最新Cortex-M處理器,搭首款microNPU

01

Cortex-M55:擁有自定義指令集和矢量擴展

Arm聲稱,此次推出的Cortex-M55是其有史以來AI功能最強大的Cortex-M處理器,同時也是首款基於Armv8.1-M架構、內建Arm Helium向量處理技術的處理器。

與前幾代Cortex-M系列處理器相比,Cortex-M55的機器學習性能最高可提升15倍,DSP性能可提升5倍,能耗比進一步提高。

除此之外,Cortex-M55還支持自定義指令集(Custom Instructions)。在去年的Arm Techcon技術大會上,Arm首次宣佈自定義指令集,並與Cortex-M33一起推出。

實際上,這一功能與RISC-V IP內核提供的功能相類似,目的是在密集執行的內核中,將緊湊的指令序列摺疊為一條指令,節省功耗和吞吐量。

從傳統方式上看,用戶要實現這一功能,可以通過內存映射設備來實現,而Arm現在已經可以通過使用協處理器接口,將操作更緊密地與CPU集成在一起。

這就意味著,用戶能通過Cortex-M55的自定義指令集延伸處理器能力,對特定工作負載進行優化。

機器學習提升480倍!Arm推最新Cortex-M處理器,搭首款microNPU

除了自定義指令集外,Cortex-M55還有另一大創新點,它在內核中首次構建了Helium向量處理技術。

Helium,也稱為M-Profile Vector Extension(MVE),它能在Arm TrustZone的安全基礎上提高Armv8.1-M架構的計算性能。它還引入新的單指令多數據流(SIMD)128位矢量操作,進一步增強DSP和機器學習應用的性能。

在性能方面,Helium能將Cortex-M55的數字信號處理器性能提升5倍,機器學習性能提升15倍。

此外,它還依賴現有的寄存器(非NEON矢量寄存器),並引入對通道(lane)預測、循環(loop)預測、分散/聚集(scatter-gather)等複雜操作的支持。

02

Ethos-U55:簡化設計NPU

如果想擁有更高的機器學習系統,用戶可以將Cortex-M55與Ethos-U55搭配使用。

Ethos-U55是Arm的首款微神經處理器,與現有的Cortex-M系列處理器相比,Cortex-M55與Ethos-U55的結合能讓產品的機器學習性能提升480倍。

性能方面,Ethos-U55擁有高度的可配置性,能加速空間受限的嵌入式與物聯網設備的機器學習推理能力。它的壓縮技術可以節省電力並縮小機器學習模型的尺寸,同時還能運行以往只能在較大型系統上執行的神經網絡運算。

實際上,Ethos-U55與其他Ethos-N系列存在一定區別。

首先,Ethos-N是獨立的IP模塊,可以放到SoC CCN-500網絡上,而Ethos-U旨在與配套的Cortex-M處理器緊密協作,並利用其處理能力。

同時,Ethos-U55還可以與較舊的Cortex-M系列處理器一起使用,如Cortex-M7、M4和M33等。

機器學習提升480倍!Arm推最新Cortex-M處理器,搭首款microNPU

從Ethos-N系列的多層神經網絡(MLP)設計上看,它們是使用多個計算引擎實例構建的,每個實例都包含幾個主要組件,如SRAM、MAC計算引擎(MCE)和可編程層引擎(PLE)。

但對Ethos-U55來說,由於功率和麵積限制,它的設計相對簡單,因此Arm將其稱為microNPU。

從概念上講,Ethos-U55只是一個具有計算引擎的MLP,而從設計上看,Ethos-U55在設計過程中刪除了PLE。

主要原因在於,Ethos-N系列的PLE將Cortex-M CPU和16通道的矢量引擎集成在一起,導致面積和功耗都相當昂貴,但這對高性能SoC來說還處於可接受的範圍。

而Ethos-U55通過與Cortex-M55等CPU相結合,能夠讓用戶擺脫PLE,改為在配套的Cortex-M處理器上進行處理。

雖然這並非一個完整的代替品,但基於嚴格的功率和麵積限制考慮,這不失為一個在可接受範圍內的折中方案。

機器學習提升480倍!Arm推最新Cortex-M處理器,搭首款microNPU

此外,Ethos-U55還刪除了較為昂貴的專用SRAM庫,因為它只需要很小的SRAM就可以進行足夠的內部處理。

Ethos-U55假定外部系統具有某種緩存,可與Cortex-M處理器共享,仍然能完成MLP設計的其他工作。例如,讓直接內存存取(DMA)根據需要獲取NN層,此外NPU還可以處理內存中的壓縮權重和激活工作,在處理之前即時進行解碼。

03

M55與U55結合的最高推理性能可提升50倍

Arm聲稱,與Cortex-M7相比,基於Helium擴展的Cortex-M55,其對典型語音助手類的工作負載推理性能最高可提升6倍,能效可提升7倍。與Ethos-U55結合使用時,這兩項性能可分別提高50倍和25倍。

值得一提的是,這些性能要實現提升,必須重新編譯代碼,以充分利用新的M-Profile向量擴展,以及Ethos MAC引擎的處理能力。

機器學習提升480倍!Arm推最新Cortex-M處理器,搭首款microNPU

據瞭解,Cortex-M系列可用於各種芯片和多種工藝技術。

基於此,Arm表示,在55nm或40nm等成熟的節點上,他們希望能看到Ethos-U55的時鐘頻率可達到100 MHz至400MHz,甚至更高。

為了更好地調整NPU到應用程序,用戶可以將MAC計算引擎(Compute Engine)配置為32、64、128或256個MAC。

在32個MAC的最小配置下,用戶可以獲得6.4-25.6 GOPS的峰值計算性能,而在256 MAC的最大配置下可達到51.2-205 GOPS。

在7nm或5nm這類先進製程節點上,Ethos-U55的時鐘頻率可達到1 GHz或更高。在這一階段,128個MAC和256個MAC配置的峰值計算性能,分別為0.25 TOPS和0.5 TOPS。

機器學習提升480倍!Arm推最新Cortex-M處理器,搭首款microNPU

04

目前,Arm已經向主要合作伙伴開放了Cortex-M55和Ethos-U55的授權,並將在未來幾個月內進一步開放,基於此IP的芯片預計在 2021年年初上市並實際投入使用。

在應用方面,Cortex-M55能夠廣泛地應用於移動設備終端。例如,在智能手機的語音助理、指紋傳感器和RF系統中,它能進一步實現這些工作負載的優化。

據瞭解,已經獲得Cortex-M55和Ethos-U55授權的公司有谷歌、恩智浦、意法半導體、賽普拉斯和恆玄科技等。

其中, Google微控制器用TensorFlow Lite部門產品經理Ian Nappier談到,Arm的這一全新IP進一步推進了在終端設備上實現機器學習,並達成數十億個具備TensorFlow功能設備的共同願景。

而這些設備僅依靠電池就能運行神經網絡模型,並長達數年之久,還可直接在終端設備上實現低遲延的推論。

另外, 意法半導體微控制器部門總經理Ricardo De Sa Earp也說到,全新的Arm Cortex-M55能夠為意法半導體的下一代微控制器,帶來所需的機器學習性能與效率提升,從而進一步提升各項AI應用。

05

結語:為AI終端市場打開創新突破口

作為半導體領域重要的IP架構供應商,長期以來,Arm架構一直佔領著移動設備領域指令集架構的重要地位。

對Arm自身而言,隨著AI和機器學習等技術的不斷成熟和發展,它也持續研發出新的IP架構、完善各類AI產品組合,以滿足市場越來越多的AI需求,而此次Cortex-M55和Ethos-U55的推出,也進一步為現在的AI終端市場撕開了又一創新方向。

移動設備領域IP架構的市場競爭仍十分激烈,架構開源、高性價比等需求也愈發鮮明。未來,Arm將如何依靠自身的豐富經驗和優勢,在眾多對手的市場競爭中脫穎而出?我們拭目以待。


分享到:


相關文章: