乾貨:處理AI任務哪家強?華為、英偉達、英特爾給出了不同答卷

隨著人工智能技術在智能設備上的應用和普及,能夠進行深度學習的AI芯片也成為芯片行業追逐的焦點。近些年來,谷歌、IBM、中科院、英偉達、華為等科技巨頭先後發佈了AI芯片,有的基於傳統芯片優化升級,擁有深度學習功能的“全新”CPU、GPU、DSP;還有創新打造的專用於AI計算的NPU。同樣可以處理AI人物,到底哪種芯片更適用於深度學習,CPU、GPU、DSP、NPU到底有什麼區別,今天神硅君簡單為大家科普下。

CPU、GPU:進行AI計算就像語文老師兼職教數學

在人工智能領域,相對於CPU,GPU是較先發力的。GPU既圖形處理器,視覺處理器,是一種專門在個人電腦、工作站、遊戲機和一些移動設備上圖像運算工作的微處理器。隨著AI技術的發展,日常處理中AI任務增多,很多GPU廠商逐漸進入AI領域。比如英偉達專門推出的為數據中心服務的計算卡NVIDIA Tesla系列GPU,就是主要針對CAD、生物信息學、運算中心等需要大量數據處理的領域,利用複雜的神經網絡來實現深度學習功能。

CPU既中央處理器,是一塊超大規模的集成電路,是一臺計算機的運算核心和控制核心。它的功能主要是解釋計算機指令以及處理計算機軟件中的數據。相比於GPU,CPU更像是一個“總控”,在計算方面並不擅長。在AI領域中,Intel吸取了GPU的優勢,是眾核芯片中做得比較好的,但計算效果依然不如GPU。

乾貨:處理AI任務哪家強?華為、英偉達、英特爾給出了不同答卷

不過即使如此,無論針對人工智能的眾核芯片還是定製版的GPU,本質上都不是專用處理器,實際上是拿現有的、相對成熟的架構和技術成果進行了調整,使芯片更適用於人工智能,本質上並沒有發生革命性的技術突破。

如果用形象的比喻來描述CPU、GPU處理AI任務的情景,就像是語文老師在數學,無論在文學造詣多麼出色,去兼顧不熟悉的學科也未必能夠做好。或許現階段確實可以勉強完成AI任務,但是隨著AI數據不斷增多AI應用體量不斷增大,未來會有一定壓力。

DSP:和真正神經網絡芯片依然有差距

DSP全稱數字信號處理器,是一種特別適合於進行數字信號處理運算的微處理器,其主要應用是實時快速地實現各種數字信號處理算法。是一種獨特的微處理器,它有自己的完整指令系統,通過指令和數據工作,開發遵循嵌入式軟件的設計原則,更注重於算法的實現。

2016年6月20日,中星微“數字多媒體芯片技術”國家重點實驗室在京宣佈,中國首款嵌入式NPU(神經網絡處理器)芯片誕生,並且應用於全球首款嵌入式視頻處理芯片“星光智能一號”。不過,這款芯片僅支持網絡正向運算,無法支持神經網絡訓練,而通過星光智能一號發佈的系統架構圖來看,這其實是一款可以運行神經網絡的DSP,並非真正意義上的專門處理神經網絡的芯片。

乾貨:處理AI任務哪家強?華為、英偉達、英特爾給出了不同答卷

如圖能夠看出,架構中共包含四個NPU核,每個NPU核包含4個內核,每個內核有兩個流處理器,每個流處理器具有8個長位寬或16位寬的SIMD運算單元。在技術上星光智能一號是典型的“舊瓶裝新酒”方案,將傳統的面向數字信號處理的DSP處理器架構用於處理神經網絡,主要在運算器方面作了相應修改,例如低位寬和超越函數,而並非是“狹義的”神經網絡專用處理器。

DSP處理AI應用的性能如何呢?其實,DSP 已經存在了很長一段時間,它最初是用來執行矩陣算法的。但到目前為止,DSP 還沒能真正提供任何有用的性能,大約從 2006 年開始,DSP的性能已經被英偉達的GPU超越,更不用說與專用的人工智能處理芯片相比了。

為處理深度學習而生的NPU:專項專用效果最好

NPU既神經網絡處理器,是專門為深度學習而生的芯片,能夠直接處理大規模的神經元和突觸,一條指令完成一組神經元的處理。相比於CPU中採取的存儲與計算分離的馮諾伊曼結構,NPU通過突觸權重實現存儲和計算一體化,從而大大提高了運行效率。

NPU的典型代表有國內的寒武紀芯片和IBM的TrueNorth。近日,華為在華為全聯接(HC)大會發布了兩款AI芯片,Ascend 910和Ascend 310,這兩款芯片同樣具備專為深度學習而生的NPU。其中,Ascend 310採用針對AI計算特點而設計的全新Da Vinci計算架構,以高性能3D Cube計算引擎為基礎,針對矩陣運算進行加速,大幅提高單位功耗下的AI算力,每個AI Core可以在一個時鐘週期內實現4096個MAC操作,相比傳統的CPU和GPU實現數量級的提升。

乾貨:處理AI任務哪家強?華為、英偉達、英特爾給出了不同答卷

其實如果你對NPU的概念實在陌生,那應該聽說過麒麟芯片。從去年的麒麟970到今年的麒麟980,SoC芯片內部都加入了獨立的AI處理單元NPU,大幅度提升手機芯片的AI處理能力。

最後,綜合來看到底哪一種芯片更適合處理AI任務呢?從芯片的處理單元上可以非常直觀的看出區別,傳統芯片中無論是CPU、GPU還是DSP都不是以硬件神經元和突觸為基本處理單元的,這使得他們在處理AI任務時要比NPU慢很多。在芯片集成度以及工藝製造水平相當的情況下,最適合處理AI任務的肯定是NPU。

並且隨著AI的應用領域不斷擴展,AI應用逐漸增多,AI計算力的需求也成爆發式增長,相對於CPU、GPU、DSP等“兼職”芯片,專注處理AI數據的NPU將成為未來AI計算領域的主導。


分享到:


相關文章: