VR、機器人、語音交互等都少不了AI芯片產業

原題:VR、機器人、語音交互等都少不了的芯片發展趨勢分析——AI芯片產業及趨勢

中創產業研究院

VR、機器人、語音交互等都少不了AI芯片產業

導語

隨著人工智能芯片的持續發展,應用領域會隨時間推移而不斷向多維方向發展,以下分析目前發展比較集中的幾個行業。

01 AI芯片應用領域

VR、機器人、語音交互等都少不了AI芯片產業

AI芯片目前比較集中的應用領域

(1)智能手機

2017 年 9 月,華為在德國柏林消費電子展發佈了麒麟 970 芯片,該芯片搭載了寒武紀的 NPU,成為“全球首款智能手機移動端 AI 芯片” ;2017 年 10 月中旬 Mate10 系列新品(該系列手機的處理器為麒麟 970)上市。搭載了 NPU 的華為 Mate10 系列智能手機具備了較強的深度學習、本地端推斷能力,讓各類基於深度神經網絡的攝影、圖像處理應用能夠為用戶提供更加完美的體驗。

而蘋果發佈以 iPhone X 為代表的手機及它們內置的 A11 Bionic 芯片。A11 Bionic 中自主研發的雙核架構 Neural Engine(神經網絡處理引擎),它每秒處理相應神經網絡計算需求的次數可達 6000 億次。這個 Neural Engine 的出現,讓 A11 Bionic 成為一塊真正的 AI 芯片。A11 Bionic 大大提升了 iPhone X 在拍照方面的使用體驗,並提供了一些富有創意的新用法。

(2)ADAS(高級輔助駕駛系統)

ADAS 是最吸引大眾眼球的人工智能應用之一, 它需要處理海量的由激光雷達、毫米波雷達、攝像頭等傳感器採集的實時數據。相對於傳統的車輛控制方法,智能控制方法主要體現在對控制對象模型的運用和綜合信息學習運用上,包括神經網絡控制和深度學習方法等,得益於 AI 芯片的飛速發展, 這些算法已逐步在車輛控制中得到應用。

(3)CV(計算機視覺(Computer Vision) 設備

需要使用計算機視覺技術的設備,如智能攝像頭、無人機、 行車記錄儀、人臉識別迎賓機器人以及智能手寫板等設備, 往往都具有本地端推斷的需要,如果僅能在聯網下工作,無疑將帶來糟糕的體驗。而計算機視覺技術目前看來將會成為人工智能應用的沃土之一,計算機視覺芯片將擁有廣闊的市場前景。

(4) VR 設備

VR 設備芯片的代表為 HPU 芯片, 是微軟為自身 VR 設備 Hololens 研發定製的。這顆由臺積電代工的芯片能同時處理來自 5個攝像頭、 1個深度傳感器以及運動傳感器的數據,並具備計算機視覺的矩陣運算和 CNN 運算的加速功能。這使得 VR 設備可重建高質量的人像 3D 影像,並實時傳送到任何地方。

(5)語音交互設備

語音交互設備芯片方面,國內有啟英泰倫以及雲知聲兩家公司,其提供的芯片方案均內置了為語音識別而優化的深度神經網絡加速方案,實現設備的語音離線識別。穩定的識別能力為語音技術的落地提供了可能;與此同時,語音交互的核心環節也取得重大突破。語音識別環節突破了單點能力,從遠場識別,到語音分析和語義理解有了重大突破,呈現出一種整體的交互方案。

(6)機器人

無論是家居機器人還是商用服務機器人均需要專用軟件+芯片的人工智能解決方案,這方面典型公司有由前百度深度學習實驗室負責人餘凱創辦的地平線機器人,當然地平線機器人除此之外,還提供 ADAS、智能家居等其他嵌入式人工智能解決方案。

02 AI芯片國內外代表性企業

本篇將介紹目前人工智能芯片技術領域的國內外代表性企業。文中排名不分先後。人工智能芯片技術領域的國內代表性企業包括中科寒武紀、中星微、地平線機器人、深鑑科技、 靈汐科技、 啟英泰倫、百度、華為等,國外包括英偉達、 AMD、 Google、高通、Nervana Systems、 Movidius、 IBM、 ARM、 CEVA、 MIT/Eyeriss、蘋果、三星等。

中科寒武紀。寒武紀科技成立於 2016 年,總部在北京,創始人是中科院計算所的陳天石、陳雲霽兄弟,公司致力於打造各類智能雲服務器、智能終端以及智能機器人的核心處理器芯片。阿里巴巴創投、聯想創投、國科投資、中科圖靈、元禾原點、湧鏵投資聯合投資,為全球 AI芯片領域第一個獨角獸初創公司。

寒武紀是全球第一個成功流片並擁有成熟產品的 AI 芯片公司,擁有終端 AI 處理器 IP和雲端高性能 AI 芯片兩條產品線。2016 年發佈的寒武紀 1A 處理器(Cambricon-1A) 是世界首款商用深度學習專用處理器,面向智能手機、安防監控、無人機、可穿戴設備以及智能駕駛等各類終端設備,在運行主流智能算法時性能功耗比全面超越傳統處理器。

中星微。1999 年, 由多位來自硅谷的博士企業家在北京中關村科技園區創建了中星微電子有限公司, 啟動並承擔了國家戰略項目——“星光中國芯工程”,致力於數字多媒體芯片的開發、設計和產業化。

2016 年初,中星微推出了全球首款集成了神經網絡處理器(NPU)的 SVAC 視頻編解碼 SoC,使得智能分析結果可以與視頻數據同時編碼,形成結構化的視頻碼流。該技術被廣泛應用於視頻監控攝像頭,開啟了安防監控智能化的新時代。自主設計的嵌入式神經網絡處理器(NPU)採用了“數據驅動並行計算” 架構,專門針對深度學習算法進行了優化,具備高性能、低功耗、高集成度、小尺寸等特點,特別適合物聯網前端智能的需求。

VR、機器人、語音交互等都少不了AI芯片產業

集成了 NPU 的神經網絡處理器 VC0616 的內部結構

地平線機器人(Horizon Robotics)。地平線機器人成立於 2015 年,總部在北京,創始人是前百度深度學習研究院負責人餘凱。BPU(BrainProcessing Unit) 是地平線機器人自主設計研發的高效人工智能處理器架構IP,支持 ARM/GPU/FPGA/ASIC 實現,專注於自動駕駛、人臉圖像辨識等專用領域。

2017年,地平線發佈基於高斯架構的嵌入式人工智能解決方案,將在智能駕駛、智能生活、公共安防三個領域進行應用,第一代 BPU芯片“盤古” 目前已進入流片階段,預計在 2018年下半年推出,能支持 1080P 的高清圖像輸入,每秒鐘處理 30 幀,檢測跟蹤數百個目標。地平線的第一代 BPU 採用 TSMC 的 40nm工藝,相對於傳統 CPU/GPU, 能效可以提升 2~3 個數量級(100~1,000 倍左右)。

深鑑科技。深鑑科技成立於 2016 年,總部在北京。由清華大學與斯坦福大學的世界頂尖深度學習硬件研究者創立。深鑑科技於 2018 年 7 月被賽靈思收購。深鑑科技將其開發的基於 FPGA 的神經網絡處理器稱為 DPU。

到目前為止,深鑑公開發布了兩款 DPU:亞里士多德架構和笛卡爾架構,其中,亞里士多德架構是針對卷積神經網絡 CNN 而設計;笛卡爾架構專為處理 DNN/RNN 網絡而設計,可對經過結構壓縮後的稀疏神經網絡進行極致高效的硬件加速。相對於 Intel XeonCPU 與 Nvidia TitanX GPU,應用笛卡爾架構的處理器在計算速度上分別提高 189 倍與 13 倍,具有 24,000 倍與 3,000 倍的更高能效。

靈汐科技。靈汐科技於 2018 年 1 月在北京成立,聯合創始人包括清華大學的世界頂尖類腦計算研究者。公司致力於新一代神經網絡處理器(Tianjic) 開發, 特點在於既能夠高效支撐現有流行的機器學習算法(包括 CNN, MLP, LSTM 等網絡架構),也能夠支撐更仿腦的、更具成長潛力的脈衝神經網絡算法;使芯片具有高計算力、高多任務並行度和較低功耗等優點。

軟件工具鏈方面支持由 Caffe、 TensorFlow 等算法平臺直接進行神經網絡的映射編譯,開發友善的用戶交互界面。Tianjic 可用於雲端計算和終端應用場景,助力人工智能的落地和推廣。

啟英泰倫。啟英泰倫於2015年 11月在成都成立,是一家語音識別芯片研發商。啟英泰倫的 CI1006是基於 ASIC 架構的人工智能語音識別芯片,包含了腦神經網絡處理硬件單元,能夠完美支持 DNN 運算架構,進行高性能的數據並行計算,可極大的提高人工智能深度學習語音技術對大量數據的處理效率。

百度。百度 2017 年 8 月 Hot Chips 大會上發佈了 XPU,這是一款 256 核、基於 FPGA 的雲計算加速芯片。合作伙伴是賽思靈(Xilinx)。XPU 採用新一代 AI 處理架構,擁有 GPU 的通用性和 FPGA 的高效率和低能耗,對百度的深度學習平臺 PaddlePaddle 做了高度的優化和加速。據介紹, XPU 關注計算密集型、基於規則的多樣化計算任務,希望提高效率和性能,並帶來類似 CPU 的靈活性。

華為。麒麟 970 搭載的神經網絡處理器 NPU 採用了寒武紀 IP,如圖 12 所示。麒麟 970 採用了 TSMC 10nm 工藝製程,擁有 55 億個晶體管,功耗相比上一代芯片降低 20%。CPU 架構方面為 4 核 A73+4 核 A53 組成 8 核心,能耗同比上一代芯片得到 20%的提升;GPU 方面採用了 12 核 Mali G72 MP12GPU,在圖形處理以及能效兩項關鍵指標方面分別提升 20%和50%;NPU 採用 HiAI移動計算架構,在 FP16 下提供的運算性能可以達到 1.92 TFLOPs,相比四個 Cortex-A73 核心,處理同樣的 AI 任務,有大約具備 50 倍能效和 25 倍性能優勢。

英偉達(Nvidia)。英偉達創立於 1993 年,總部位於美國加利福尼亞州聖克拉拉市。早在 1999 年, 英偉達發明了 GPU,重新定義了現代計算機圖形技術,徹底改變了並行計算。深度學習對計算速度有非常苛刻的要求, 而英偉達的 GPU 芯片可以讓大量處理器並行運算,速度比 CPU 快十倍甚至幾十倍,因而成為絕大部分人工智能研究者和開發者的首選。自從 Google Brain 採用 1.6 萬個 GPU 核訓練 DNN 模型, 並在語音和圖像識別等領域獲得巨大成功以來, 英偉達已成為 AI 芯片市場中無可爭議的領導者。

AMD。美國 AMD 半導體公司專門為計算機、 通信和消費電子行業設計和製造各種創新的微處理器(CPU、 GPU、 APU、 主板芯片組、 電視卡芯片等),以及提供閃存和低功率處理器解決方案,公司成立於 1969 年。AMD 致力為技術用戶——從企業、 政府機構到個人消費者——提供基於標準的、 以客戶為中心的解決方案。

2017 年 12 月 Intel 和 AMD 宣佈將聯手推出一款結合英特爾處理器和 AMD 圖形單元的筆記本電腦芯片。目前 AMD 擁有針對 AI 和機器學習的高性能 Radeon Instinc 加速卡,開放式軟件平臺 ROCm 等。

Google

。Google 在 2016 年宣佈獨立開發一種名為 TPU 的全新的處理系統。TPU 是專門為機器學習應用而設計的專用芯片。通過降低芯片的計算精度,減少實現每個計算操作所需晶體管數量的方式,讓芯片的每秒運行的操作個數更高,這樣經過精細調優的機器學習模型就能在芯片上運行得更快,進而更快地讓用戶得到更智能的結果。在 2016 年 3 月打敗了李世石和 2017 年 5 月打敗了柯傑的阿爾法狗,就是採用了谷歌的 TPU 系列芯片。

Google I/O-2018 開發者大會期間,正式發佈了第三代人工智能學習專用處理器 TPU 3.0。TPU3.0 採用 8 位低精度計算以節省晶體管數量, 對精度影響很小但可以大幅節約功耗、加快速度,同時還有脈動陣列設計,優化矩陣乘法與卷積運算, 並使用更大的片上內存,減少對系統內存的依賴。速度能加快到最高 100PFlops(每秒 1000 萬億次浮點計算)。

高通。在智能手機芯片市場佔據絕對優勢的高通公司,也在人工智能芯片方面積極佈局。據高通提供的資料顯示,其在人工智能方面已投資了 Clarifai 公司和中國“專注於物聯網人工智能服務” 的雲知聲。而早在 2015 年 CES 上,高通就已推出了一款搭載驍龍 SoC 的飛行機器人——Snapdragon Cargo。高通認為在工業、農業的監測以及航拍對拍照、攝像以及視頻新需求上,公司恰好可以發揮其在計算機視覺領域的能力。此外,高通的驍龍 820 芯片也被應用於 VR頭盔中。事實上,高通已經在研發可以在本地完成深度學習的移動端設備芯片。

Nervana Systems。Nervana 創立於 2014 年, 公司推出的 The Nervana Engine 是一個為深度學習專門定製和優化的 ASIC 芯片。這個方案的實現得益於一項叫做 High Bandwidth Memory 的新型內存技術, 這項技術同時擁有高容量和高速度,提供 32GB 的片上儲存和 8TB 每秒的內存訪問速度。該公司目前提供一個人工智能服務“in the cloud” ,他們聲稱這是世界上最快的且目前已被金融服務機構、醫療保健提供者和政府機構所使用的服務。他們的新型芯片將會保證 Nervana 雲平臺在未來的幾年內仍保持最快的速度。

Movidius(被 Intel 收購)。2016 年 9 月, Intel 發表聲明收購了 Movidius。Movidius 專注於研發高性能視覺處理芯片。其最新一代的 Myriad2 視覺處理器主要由 SPARC 處理器作為主控制器,加上專門的DSP 處理器和硬件加速電路來處理專門的視覺和圖像信號。這是一款以 DSP 架構為基礎的視覺處理器,在視覺相關的應用領域有極高的能耗比,可以將視覺計算普及到幾乎所有的嵌入式系統中。

該芯片已被大量應用在 Google 3D 項目的 Tango 手機、大疆無人機、 FLIR 智能紅外攝像機、海康深眸系列攝像機、華睿智能工業相機等產品中。

IBM。

IBM 很早以前就發佈過 watson,投入了很多的實際應用。除此之外,還啟動了類腦芯片的研發, 即 TrueNorth。TrueNorth 是 IBM 參與 DARPA 的研究項目 SyNapse 的最新成果。SyNapse 全稱是Systems of Neuromorphic Adaptive Plastic Scalable Electronics(自適應可塑可伸縮電子神經系統,而 SyNapse 正好是突觸的意思),其終極目標是開發出打破馮·諾依曼體系結構的計算機體系結構。

ARM。ARM 推出全新芯片架構 DynamIQ,通過這項技術, AI 芯片的性能有望在未來三到五年內提升 50 倍。

ARM的新CPU架構將會通過為不同部分配置軟件的方式將多個處理核心集聚在一起,這其中包括一個專門為 AI 算法設計的處理器。芯片廠商將可以為新處理器配置最多 8 個核心。同時為了能讓主流 AI 在自己的處理器上更好地運行, ARM 還將推出一系列軟件庫。

CEVA。CEVA 是專注於 DSP 的 IP 供應商,擁有眾多的產品線。其中,圖像和計算機視覺 DSP產品 CEVA-XM4是第一個支持深度學習的可編程 DSP,而其發佈的新一代型號 CEVA-XM6,具有更優的性能、更強大的計算能力以及更低的能耗。CEVA 指出,智能手機、汽車、安全和商業應用,如無人機、自動化將是其業務開展的主要目標。

MIT/Eyeriss。Eyeriss 事實上是 MIT 的一個項目,還不是一個公司, 從長遠來看,如果進展順利,很可能孵化出一個新的公司。Eyeriss 是一個高效能的深度卷積神經網絡(CNN)加速器硬件,該芯片內建 168 個核心,專門用來部署神經網路(neural network),效能為一般 GPU 的 10 倍。其技術關鍵在於最小化 GPU 核心和記憶體之間交換數據的頻率(此運作過程通常會消耗大量的時間與能量):一般 GPU 內的核心通常共享單一記憶體,但 Eyeriss 的每個核心擁有屬於自己的記憶體。

目前, Eyeriss 主要定位在人臉識別和語音識別,可應用在智能手機、穿戴式設備、機器人、自動駕駛車與其他物聯網應用裝置上。

蘋果。在 iPhone 8 和 iPhone X 的發佈會上,蘋果明確表示其中所使用的 A11 處理器集成了一個專用於機器學習的硬件——“神經網絡引擎(Neural Engine) ”, 每秒運算次數最高可達6000 億次。這塊芯片將能夠改進蘋果設備在處理需要人工智能的任務時的表現,比如面部識別和語音識別等。

三星。2017 年,華為海思推出了麒麟 970 芯片,據知情人士透露,為了對標華為,三星已經研發了許多種類的人工智能芯片。三星計劃在未來三年內新上市的智能手機中都採用人工智能芯片,並且他們還將為人工智能設備建立新的組件業務。三星還投資了Graphcore、深鑑科技等人工智能芯片企業。

VR、機器人、語音交互等都少不了AI芯片產業

03 技術趨勢

目前主流 AI 芯片的核心主要是利用 MAC(Multiplier and Accumulation, 乘加計算) 加速陣列來實現對 CNN(卷積神經網絡)中最主要的卷積運算的加速。這一代 AI 芯片主要有如下 3 個方面的問題。

(1)深度學習計算所需數據量巨大,造成內存帶寬成為整個系統的瓶頸,即所謂“memory wall” 問題。

(2)與第一個問題相關, 內存大量訪問和 MAC陣列的大量運算,造成 AI芯片整體功耗的增加。

(3)深度學習對算力要求很高,要提升算力,最好的方法是做硬件加速,但是同時深度學習算法的發展也是日新月異,新的算法可能在已經固化的硬件加速器上無法得到很好的支持,即性能和靈活度之間的平衡問題。

因此可以預見下一代 AI 芯片將有如下的五個發展趨勢。

(1)更高效的大卷積解構/複用

在標準 SIMD 的基礎上, CNN 由於其特殊的複用機制,可以進一步減少總線上的數據通信。而複用這一概念,在超大型神經網絡中就顯得格外重要。如何合理地分解、 映射這些超大卷積到有效的硬件上成為了一個值得研究的方向。

(2)更低的 Inference 計算/存儲位寬

AI 芯片最大的演進方向之一可能就是神經網絡參數/計算位寬的迅速減少——從 32 位浮點到 16 位浮點/定點、 8 位定點,甚至是 4 位定點。在理論計算領域, 2 位甚至 1 位參數位寬,都已經逐漸進入實踐領域。

(3)更多樣的存儲器定製設計

當計算部件不再成為神經網絡加速器的設計瓶頸時,如何減少存儲器的訪問延時將會成為下一個研究方向。通常,離計算越近的存儲器速度越快,每字節的成本也越高,同時容量也越受限,因此新型的存儲結構也將應運而生。

(4)更稀疏的大規模向量實現

神經網絡雖然大,但是,實際上有很多以零為輸入的情況, 此時稀疏計算可以高效的減少無用能效。來自哈佛大學的團隊就該問題提出了優化的五級流水線結,在最後一級輸出了觸發信號。在 Activation層後對下一次計算的必要性進行預先判斷,如果發現這是一個稀疏節點,則觸發 SKIP 信號,避免乘法運算的功耗,以達到減少無用功耗的目的。

(5)計算和存儲一體化

計算和存儲一體化(process-in-memory)技術,其要點是通過使用新型非易失性存儲(如 ReRAM)器件,在存儲陣列裡面加上神經網絡計算功能,從而省去數據搬移操作,即實現了計算存儲一體化的神經網絡處理,在功耗性能方面可以獲得顯著提升。


分享到:


相關文章: