乾貨：處理AI任務哪家強？華為、英偉達、英特爾給出了不同答卷科技頭條網

2018-10-19 10:26:03 仁者神硅

隨著人工智能技術在智能設備上的應用和普及，能夠進行深度學習的AI芯片也成為芯片行業追逐的焦點。近些年來，谷歌、IBM、中科院、英偉達、華為等科技巨頭先後發佈了AI芯片，有的基於傳統芯片優化升級，擁有深度學習功能的“全新”CPU、GPU、DSP；還有創新打造的專用於AI計算的NPU。同樣可以處理AI人物，到底哪種芯片更適用於深度學習，CPU、GPU、DSP、NPU到底有什麼區別，今天神硅君簡單為大家科普下。

CPU、GPU：進行AI計算就像語文老師兼職教數學

在人工智能領域，相對於CPU，GPU是較先發力的。GPU既圖形處理器，視覺處理器，是一種專門在個人電腦、工作站、遊戲機和一些移動設備上圖像運算工作的微處理器。隨著AI技術的發展，日常處理中AI任務增多，很多GPU廠商逐漸進入AI領域。比如英偉達專門推出的為數據中心服務的計算卡NVIDIA Tesla系列GPU，就是主要針對CAD、生物信息學、運算中心等需要大量數據處理的領域，利用複雜的神經網絡來實現深度學習功能。

CPU既中央處理器，是一塊超大規模的集成電路，是一臺計算機的運算核心和控制核心。它的功能主要是解釋計算機指令以及處理計算機軟件中的數據。相比於GPU，CPU更像是一個“總控”，在計算方面並不擅長。在AI領域中，Intel吸取了GPU的優勢，是眾核芯片中做得比較好的，但計算效果依然不如GPU。

不過即使如此，無論針對人工智能的眾核芯片還是定製版的GPU，本質上都不是專用處理器，實際上是拿現有的、相對成熟的架構和技術成果進行了調整，使芯片更適用於人工智能，本質上並沒有發生革命性的技術突破。

如果用形象的比喻來描述CPU、GPU處理AI任務的情景，就像是語文老師在數學，無論在文學造詣多麼出色，去兼顧不熟悉的學科也未必能夠做好。或許現階段確實可以勉強完成AI任務，但是隨著AI數據不斷增多AI應用體量不斷增大，未來會有一定壓力。

DSP：和真正神經網絡芯片依然有差距

DSP全稱數字信號處理器，是一種特別適合於進行數字信號處理運算的微處理器，其主要應用是實時快速地實現各種數字信號處理算法。是一種獨特的微處理器，它有自己的完整指令系統，通過指令和數據工作，開發遵循嵌入式軟件的設計原則，更注重於算法的實現。

2016年6月20日，中星微“數字多媒體芯片技術”國家重點實驗室在京宣佈，中國首款嵌入式NPU（神經網絡處理器）芯片誕生，並且應用於全球首款嵌入式視頻處理芯片“星光智能一號”。不過，這款芯片僅支持網絡正向運算，無法支持神經網絡訓練，而通過星光智能一號發佈的系統架構圖來看，這其實是一款可以運行神經網絡的DSP，並非真正意義上的專門處理神經網絡的芯片。

如圖能夠看出，架構中共包含四個NPU核，每個NPU核包含4個內核，每個內核有兩個流處理器，每個流處理器具有8個長位寬或16位寬的SIMD運算單元。在技術上星光智能一號是典型的“舊瓶裝新酒”方案，將傳統的面向數字信號處理的DSP處理器架構用於處理神經網絡，主要在運算器方面作了相應修改，例如低位寬和超越函數，而並非是“狹義的”神經網絡專用處理器。

DSP處理AI應用的性能如何呢？其實，DSP 已經存在了很長一段時間，它最初是用來執行矩陣算法的。但到目前為止，DSP 還沒能真正提供任何有用的性能，大約從 2006 年開始，DSP的性能已經被英偉達的GPU超越，更不用說與專用的人工智能處理芯片相比了。

為處理深度學習而生的NPU：專項專用效果最好

NPU既神經網絡處理器，是專門為深度學習而生的芯片，能夠直接處理大規模的神經元和突觸，一條指令完成一組神經元的處理。相比於CPU中採取的存儲與計算分離的馮諾伊曼結構，NPU通過突觸權重實現存儲和計算一體化，從而大大提高了運行效率。

NPU的典型代表有國內的寒武紀芯片和IBM的TrueNorth。近日，華為在華為全聯接（HC）大會發布了兩款AI芯片，Ascend 910和Ascend 310，這兩款芯片同樣具備專為深度學習而生的NPU。其中，Ascend 310採用針對AI計算特點而設計的全新Da Vinci計算架構，以高性能3D Cube計算引擎為基礎，針對矩陣運算進行加速，大幅提高單位功耗下的AI算力，每個AI Core可以在一個時鐘週期內實現4096個MAC操作，相比傳統的CPU和GPU實現數量級的提升。