AI芯片發展的前世今生

AI芯片發展的前世今生

AI芯片發展的前世今生

作者 | 任 源、潘 俊、劉京京、何燕冬、何 進

來源 | 《微納電子與智能製造》期刊

現代電子產品和設備在諸如通信 、娛樂 、安全和 醫療保健等許多方面改善了我們的生活質量 ,這主要是因為現代微電子技術的發展極大地改變了人們的日常工作和互動方式。在過去幾十年中 ,摩爾定 律一直是通過不斷縮小芯片上的器件特徵尺寸來提高計算能力 ,帶來了電子產品諸如更高速度 、更低成本和更小功耗等優勢。Gordon Moore 最初的觀察是 芯片中的晶體管數量大約每 2 年增加 1 倍 ,David House 進一步預測 ,由於更多更快的晶體管 ,芯片性能將每 18 個月翻一番。雖然 Gordon Moore 的預測已經成功超過 50 年 ,但是今天的硅 CMOS 技術正在 接近其尺寸的基本物理極限,摩爾定律的延續性已經變得越來越具有挑戰性。

這意味著電子產品和設 備的性能增益不再僅僅依賴於器件特徵尺寸的縮 小 ,人們有必要發明新的 IT 技術或新的計算原理 ,以 滿足應用對計算能力和低功耗等方面不斷增長的需求 ,而人工智能的出現為突破這種侷限性提供了無 限可能。人工智能(artificial intelligence,AI)指由人制造出來的機器來呈現人類智能的技術 ,而人工智 能芯片指能夠運行人工智能技術和相關算法的半導體芯片。本文將對人工智能芯片的研究進展及市場發展進行介紹 。

AI芯片发展的前世今生

人工智能芯片的發展

據瞭解 ,人工智能(AI)技術的發展和應用在美 國 、中國和歐盟等世界主要國家中已經成為國家戰 略 ,在國家的科技發展和產業競爭中佔據越來越重要的位置。同時,AI技術在手寫識別(例如MNIST數據集[1] )、人臉識別(例如 Facebook 的 DeepFace [2] )、 語音識別(例如亞馬遜的 Alexa [3] 、Apple 的 Siri [4] 、微 軟的Cortana [5])、機器人技術(例如機器人操作系 統[6])、自動駕駛(例如Tartan Racing[7]),甚至智力遊 戲(例如 Google 的 AlphaGo [8] )和視頻遊戲(例如 Pac- mAnt [9] )等領域得到了廣泛應用。隨著人工智能的 發展 ,產生了更多的專業技術 ,比如神經網絡模型 、 機器學習等 ,依靠經驗學習而不是編程來做出決 策。反過來 ,機器學習為深度學習奠定了基礎 ,深度 學習涉及分層算法 ,以便更好地理解數據 。

自 20 世紀 50 年代開始 ,人類對人工智能技術的 探索從來就沒有停止過 。“人工智能”一詞是由科學 家約翰 · 麥卡錫(John McCarthy)、克勞德 · 香農(Claude Shannon)和馬文·明斯基(Marvin Minsky)於1956 年在達特茅斯會議上提出的 ,從此揭開人工智 能研究的序幕。1962 年 Rosenblatt 出版《神經動力學 原理》及其 1957 年設計的模擬計算器 ,被視作深度神 經網絡模型的算法原型。1969 年 ,Minsky 與 Papert出版《感知器》,指出單層神經網絡訓練出來的圖像 識別算法連對稱圖形都無法正確識別。

對於多層神經網絡 ,由於人造神經元的運算極限嚴重受限於當 時計算機的算力不足 ,導致多層神經網絡也無法被 當時和後來的計算機的芯片運算效能實現 ,這造成了人工神經網絡領域在 1970 年代的寒冬時期。

1982年,日本開始第五代計算機項目研究計劃,同時美國 也投入不少資源在第五代計算機的研發中 ,但最終 依然無法解決圖像和音訊識別的重大問題。1985年 ,Hinton 與 Sejnowski 發表了之前被視為不可能實 現的基於玻爾茲曼機的“多層神經網絡”,1986 年, Rumelhart和Hinton發表“BP反向傳播算法”,1989年 ,貝爾實驗室成功利用反向傳播算法 ,在多層神經 網絡開發了一個手寫郵編識別器。同年,Mead 出版Analog VLSI and Neural Systems ,開創了基於仿生芯 片的神經形態工程領域。

1993 年,Yann Le Cun 的團 隊使用 DSP 在一臺 486 電腦上實現深度學習算法 ,其 作為推理芯片,已可辨識手寫的數字。至此 ,通用芯 片 CPU 的算力大幅提升 ,但仍無法滿足多層神經網絡的計算能力需求。1994 年 ,Michael Gschwind 等使 用 FPGAs 實現神經網絡的算法應用,1998 年 ,Yann Le Cun 和 Yoshua Bengio 發表了手寫識別神經網絡和 反向傳播優化相關的論文“Gradient-based learning applied to document recognition”,開創了卷積神經網 絡時代的到來。

2006 年 ,Hinton 提出受限玻爾茲曼 機模型與深度信念網絡 ,成功地訓練多層神經網絡 , 解決了反向傳播算法局部最佳解問題 ,並把多層類 神經網絡稱作“深度學習”,首次證明了大規模深度 神經網絡學習的可能性。2007 年 ,英偉達開發出統 一計算架構(CUDA),研究人員透過 CUDA 可以輕 松使用 C 語言開發 GPU ,使得 GPU 具有方便的編程 環境可以直接編寫程序。2008 年 ,英偉達推出 Tegra芯片 ,作為最早的可用於人工智能領域的 GPU ,如今 已成為英偉達最重要的 AI 芯片之一 ,主要用於智能 駕駛領域。2009 年 ,Rajat Raina 和吳恩達聯合發表 利用 GPU 完成深度學習訓練的論文“Large-scale Deep Unsupervised Learning Using Graphic Processors”。2010 年 ,IBM 首次發佈類腦芯片原型模 擬大腦結構 ,該原型具有感知認知能力和大規模並 行計算能力。

2012 年 ,Krizhevsky 與 Hinton 的團隊 採用 GPU 架構結合卷積神經網絡(CNN)算法 ,在ImageNet 大賽中 ,將圖像識別錯誤率降到 18% ,並在NIPS 會議上發表圖像識別論文“Image Net Classification with Deep Convolutional NeuralNetworks”。這一突破性的成果 ,讓人們第一次驚喜 地看到神經網絡的算力需求可被現行計算設備滿足。不過,這一成果也有它的美中不足:他們使用的GPU 架構芯片並非針對神經網絡架構設計 ,其中包 含許多運行神經網絡時不需要的架構設計 ,因此效率提升有限。就在同一年 ,Google Brain 用 1.6 萬個GPU 核的並行計算平臺訓練 DNN 模型 ,在語音和圖 像識別等領域獲得巨大成功 ,2013 年 GPU 開始廣泛 應用於人工智能領域 ,高通公司發佈 Zeroth。2014年,中國科學研究院的陳天石博士(寒武紀創辦人) 團隊發表以 DianNao [10] 為名的人工智能專用加速芯片 系 列 論 文( 包 含 DaDianNao [11] 、PuDianNao [12] 、ShiDianNao [13] 、Cambricon-X),開啟人工智能加速專 用芯片(ASIC)的研究領域。也在同年 ,英偉達發佈 首個為深度學習設計的 GPU 架構 Pascal,IBM 發佈第二代 TrueNorth。

2015 年 ,Jason Cong 在當年的國 際FPGA大會上,發表1篇FPGA加速DNN算法的論文“Optimizing FPGA- based Accelerator Design for Deep Convolutional Neural Networks”,使得 FPGAs 迅 速大火。很快地 ,2016 年 ,Google 發表 TensorFlow 框 架設計的 TPU 芯片 ,而同年 ,採用 TPU 架構的AlphaGo 出現 ,並擊敗人類世界冠軍棋士李世石。還 是在同年 ,寒武紀研發出 DIANNAO,FPGA 芯片在 雲計算平臺得到廣泛應用。僅僅在 2017 年 ,谷歌TPU 2.0發佈,加強了訓練效能[14];英偉達發佈Volta架構,推進GPU的效能大幅提升;華為麒麟970成為 首個手機 AI 芯片;清華大學魏少軍教授團隊開發出Thinker 原型 ,並隨後推出在算力和能效方面具有國 際水平的系列 Thinker 人工智能芯片 。

AI芯片发展的前世今生

人工智能芯片的分類

2.1 傳統CPU困局

自20個世紀60年代早期開始,CPU(中央處理器)開始出現並使用在計算機工業中。現如今,雖然CPU 在設計和實現上都發生了巨大變化 ,但是基於 馮 · 諾依曼架構的 CPU 基本工作原理卻一直沒有發 生很大變化。如圖 1 所示 ,馮 · 諾依曼架構分為中央 處理單元(CPU)和存儲器,CPU主要由控制器和運 算器兩大部件組成[15]。在工作時 ,CPU 每執行一條指令都需要從存儲器中讀取數據 ,根據指令對數據 進行相應的操作,因此CPU不僅負責數據運算,而且 需要執行存儲讀取 、指令分析 、分支跳轉等命令。同 時可以通過提升單位時間內執行指令的條數 ,即主 頻 ,來提升計算速度。但在人工智能深度學習領域 中程序指令相對較少 ,但對大數據的計算需求很大 , 需要進行海量的數據處理。當用 CPU 執行 AI 算法 時 ,CPU 將花費大量的時間在數據/指令的讀取分析 上 ,在一定的功耗前提下 ,不能夠通過無限制的加快CPU 頻率和內存帶寬來達到指令執行速度無限制的 提升。因此在這種情形下 ,傳統 CPU 結構缺點明顯 , 在人工智能芯片領域中的算力瓶頸問題很難解決 。

AI芯片发展的前世今生

2.2 人工智能芯片中的後CPU時代

基於 CPU 的算力問題 ,近年來人工智能芯片領域的科學家們進行了富有成果的廣泛研究 ,主要集 中在 AI 芯片目前的兩種發展方向。一個方向是繼 續延續經典的馮 · 諾依曼計算架構 ,以加速計算能力 為發展目標,主要分為並行加速計算的GPU(圖形處 理單元)、半定製化的 FPGA(現場可編程門陣列)、全 定製化的 ASIC(專用集成電路)。另一個方向就是 顛覆傳統的馮 · 諾依曼計算架構 ,採用基於類腦神經 結構的神經擬態芯片來解決算力問題。下面將對這 兩個方向的人工智能芯片特點進行詳細描述。

2.2.1 按架構分類

(1)圖 形 處 理 單 元(graphics processing unit ,GPU)。GPU 是相對較早的加速計算處理器 ,具 有速度快、芯片編程靈活簡單等特點。由於傳統CPU 的計算指令遵循串行執行方式 ,不能發揮出芯片的全部潛力 ,而 GPU 具有高並行結構 ,在處理圖形 數據和複雜算法方面擁有比 CPU 更高的效率。在結 構上 ,CPU 主要由控制器和寄存器組成 ,而 GPU 則擁 有更多的邏輯運算單元(arithmetic logic unit,ALU) 用於數據處理,這樣的結構更適合對密集型數據進 行並行處理 ,程序在 GPU 系統上的運行速度相較於 單核 CPU 往往提升幾十倍乃至上千倍。同時 ,GPU擁有了更加強大的浮點運算能力 ,可以緩解深度學 習算法的訓練難題,釋放人工智能的潛能。但是GPU 也有一定的侷限性。深度學習算法分為訓練和 推斷兩部分 ,GPU 平臺在算法訓練上非常高效。但 在推斷中對於單項輸入進行處理的時候 ,並行計算 的優勢不能完全發揮出來 。

(2)現場可編程門陣列(field programmable gate array ,FPGA )。FPGA 是 在 PAL 、GAL 、CPLD 等 可 編 程器件基礎上進一步發展的產物。其基本原理是在FPGA 芯片內集成大量的基本門電路以及存儲器 ,用 戶可以通過更新FPGA配置文件(即燒入)來定義這 些門電路以及存儲器之間的連線。這種燒入不是一 次性的,因此,它既解決了定製電路靈活性的不足, 又克服了原有可編程器件門電路數有限的缺點。與GPU 不同 ,FPGA 同時擁有進行數據並行和任務並行 計算的能力 ,適用於以硬件流水線方式處理一條數 據 ,且整數運算性能更高 ,因此常用於深度學習算法 中的推斷階段。不過 FPGA 通過硬件的配置實現軟 件算法 ,因此在實現複雜算法方面有一定的難度 。

將FPGA和CPU對比可以發現兩個特點,一是FPGA沒有內存和控制所帶來的存儲和讀取部分,速度更快,二是FPGA沒有讀取指令操作,所以功耗更低。劣勢是價格比較高,編程複雜,整體運算能力不是很高。功耗方面 ,從體系結構而言 ,FPGA 也具有天生 的優勢。傳統的馮氏結構中,執行單元(如CPU核) 執行任意指令,都需要有指令存儲器 、譯碼器 、各種 指令的運算器及分支跳轉處理邏輯參與運行,而FPGA每個邏輯單元的功能在重編程(即燒入)時就已經確定 ,不需要指令,無需共享內存 ,從而可以極 大地降低單位執行的功耗 ,提高整體的能耗比。FPGA最值得注意的例子可能是 CNP [16] ,它進一步改 進並重命名為 NeuFlow [17] ,後來改編為 nn-X [18]。這些設計可以實現 10~100 KM/s 操作(GOPS),功率僅 為10W以下。

(3)專用集成電路(application-specific integrated circuit,ASIC)。目前以深度學習為代表的人工智能 計算需求,主要採用GPU、FPGA等已有的適合並行 計算的通用芯片來實現加速。在產業應用沒有大規 模興起之時 ,使用這類 GPU 、FPGA 已有的通用芯片 可以避免專門研發定製芯片( ASIC )的高投入和高風 險。但是,由於這類通用芯片設計初衷並非專門針 對深度學習 ,因而天然存在性能 、功耗等方面的侷限 性。隨著人工智能應用規模的擴大 ,這類問題日益 突顯。

GPU 作為圖像處理器 ,設計初衷是為了應對圖像 處理中的大規模並行計算。因此 ,在應用於深度學習 算法時無法充分發揮並行計算優勢。深度學習包含 訓練和推斷兩個計算環節 ,GPU 在深度學習算法訓練 上非常高效 ,但對於單一輸入進行推斷的場合 ,並行 度的優勢不能完全發揮。其次,GPU採用SIMT計算 模式 ,硬件結構相對固定 ,無法靈活配置硬件結構 。此外,運行深度學習算法能效低於FPGA。

雖然 FPGA 倍受看好 ,但其畢竟不是專門為了適 用深度學習算法而研發 ,實際應用中為了實現可重 構特性 ,FPGA 內部有大量極細粒度的基本單元 ,但 是每個單元的計算能力都遠低於 CPU 和 GPU 中的ALU 模塊;其次 ,為實現可重構特性 ,FPGA 內部大 量資源被用於可配置的片上路由與連線 ,因此計算 資源佔比相對較低;再者,速度和功耗相對專用定製 芯片(ASIC)仍然存在不小差距;而且FPGA價格較 為昂貴,在規模放量的情況下單塊FPGA的成本要遠 高於專用定製芯片。

因此 ,隨著人工智能算法和應用技術的日益發 展,以及人工智能專用芯片ASIC產業環境的逐漸成 熟 ,全定製化人工智能 ASIC 也逐步體現出自身的優 勢。ASIC是專用定製芯片,定製的特性有助於提高ASIC 的性能功耗比 ,缺點是電路設計需要定製 ,相 對開發週期長 ,功能難以擴展。但在功耗 、可靠性 、 集成度等方面都有優勢 ,尤其在要求高性能 、低功耗 的移動應用端體現明顯。比如谷歌的 TPU、寒武紀 的 GPU ,地平線的 BPU 都屬於 ASIC 芯片 。

(4)神經擬態芯片(類腦芯片)。在人工智能芯片中,傳統的馮·諾依曼架構存在著“馮·諾依曼瓶 頸”,它降低了系統的整體效率和性能[19]。為了從 根本上克服這個問題 ,神經形態計算近年來已成為 基於馮 · 諾依曼系統的這些傳統計算架構的最有吸 引力的替代方案。術語“神經形態計算”首先由Mead[20] 在 1990 年提出 ,它是一種受大腦認知功能 啟發的新計算範式。與傳統的 CPU / GPU 不同 ,生 物腦(例如哺乳動物的大腦)能夠以高效率和低功 耗在小區域中並行處理大量信息。因此 ,神經形態 計算的最終目標是開發神經形態硬件加速器 ,模擬 高效生物信息處理,以彌合網絡和真實大腦之間的 效率差距[21] ,這被認為是下一代人工智能的主要驅 動力。

神經擬態芯片不採用經典的馮 · 諾依曼架構 ,而 是基於神經形態架構設計 ,是模擬生物神經網絡的 計算機制 ,如果將神經元和突觸權重視為大腦的“處 理器”和“記憶”,它們會分佈在整個神經皮層[22]。神 經擬態計算從結構層面去逼近大腦 ,其研究工作可 分為兩個層次 ,一是神經網絡層面,與之相應的是神 經擬態架構和處理器 ,以 IBM Truenorth 為代表 ,這 種芯片把定製化的數字處理內核當作神經元 ,把內存作為突觸。

其邏輯結構與傳統馮·諾依曼結構不同:內存、CPU和通信部件完全集成在一起,因此信 息的處理在本地進行 ,克服了傳統計算機內存與CPU 之間的速度瓶頸問題。同時神經元之間可以方 便快捷地相互溝通 ,只要接收到其他神經元發過來 的脈衝(動作電位),這些神經元就會同時做動作;二 是神經元與神經突觸層面 ,與之相應的是元器件層 面的創新。如 IBM 蘇黎世研究中心宣佈製造出世界 上首個人造納米尺度的隨機相變神經元,可實現高 速無監督學習 。

當前 ,最先進的神經擬態芯片仍然遠離人類大 腦的規模(1010個神經元,每個神經元有103~104個突 觸),至多達到104 倍,如表1所示。為了達到在人腦 中規模,應將多個神經擬態芯片集成在電路板或背 板上 ,以構成超大規模計算系統。神經擬態芯片的 設計目的不再僅僅侷限於加速深度學習算法 ,而是 在芯片基本結構甚至器件層面上改變設計 ,希望能 夠開發出新的類腦計算機體系結構,比如採用憶阻 器和 ReRAM 等新器件來提高存儲密度。這類芯片 技術尚未完全成熟 ,離大規模應用還有很長的距離 , 但是長期來看類腦芯片有可能會帶來計算機體系結構的革命 。

AI芯片发展的前世今生

2.2.2 按功能分類

根據機器學習算法步驟 ,可分為訓練(training)和推斷( inference )兩個環節 。訓練環節通常需要通過大量的數據輸入,訓練出一個複雜的深度神經網絡模型。訓練過程由於涉 及海量的訓練數據和複雜的深度神經網絡結構 ,運 算量巨大 ,需要龐大的計算規模 ,對於處理器的計算 能力 、精度 、可擴展性等性能要求很高。目前市場上通常使用英偉達的 GPU 集群來完成 ,Google 的TPU2.0/3.0 也支持訓練環節的深度網絡加速 。

推斷環節是指利用訓練好的模型 ,使用新的數 據去“推斷”出各種結論。這個環節的計算量相對訓 練環節少很多 ,但仍然會涉及到大量的矩陣運算 。在推斷環節中 ,除了使用 CPU 或 GPU 進行運算外 ,FPGA 以及 ASIC 均能發揮重大作用。表 2 是 4 種技 術架構的芯片在人工智能系統開發上的對比 。

AI芯片发展的前世今生

2.2.3 按應用場景分類

主要分為用於服務器端(雲端)和用於移動端( 終 端 )兩 大 類 。

服務器端:在深度學習的訓練階段 ,由於數據量及運算量巨大 ,單一處理器幾乎不可能獨立完成 1 個 模型的訓練過程 ,因此 ,負責 AI 算法的芯片採用的是 高性能計算的技術路線 ,一方面要支持儘可能多的網 絡結構以保證算法的正確率和泛化能力;另一方面必 須支持浮點數運算;而且為了能夠提升性能必須支持 陣列式結構(即可以把多塊芯片組成一個計算陣列以 加速運算)。在推斷階段,由於訓練出來的深度神經 網絡模型仍非常複雜 ,推斷過程仍然屬於計算密集型 和存儲密集型 ,可以選擇部署在服務器端 。

移 動 端( 手 機 、智 能 家 居 、無 人 車 等 ):移 動 端 AI芯片在設計思路上與服務器端 AI 芯片有著本質的 區別。首先,必須保證很高的計算能效;其次,在高 級輔助駕駛 ADAS 等設備對實時性要求很高的場 合 ,推斷過程必須在設備本身完成 ,因此要求移動端 設備具備足夠的推斷能力。而某些場合還會有低功 耗 、低延遲 、低成本的要求 ,從而導致移動端的 AI 芯 片多種多樣 。

AI芯片发展的前世今生

人工智能芯片研究現狀

3.1 研究背景

人工智能芯片的核心為神經網絡算法的實現。深度神經網絡(DNN)已經在自然語言處理、機器視覺、語音識別、醫學影像分析等眾多人工智能領域取 得了重大突破[28-29]。深度學習主要分為傳統卷積神 經 網 絡( CNN )和 遞 歸 神 經 網 絡( RNN ),其 依 賴 於 大 數據集的反覆訓練和大量浮點運算推理運算 ,這對 計算機算力要求較高 ,訓練時間長 ,功耗極大。以Alpha Go 為例 ,其基於 1 920 箇中央處理單元和 280個圖形處理單元 ,功耗為 1 MW ,這幾乎是人腦能耗(~20 W)的5萬倍。近年來,人工智能被視為有極大的潛力應用於物聯網和邊緣計算領域中 ,因此需要具備高能效、快速預測 ,在線學習的能力,以避免向後端或服務器發送大量的數據[30-32]。

人工智能算法、架構 、電路 、器件等各個層面得到了很大的改進和優化 ,以減少推理的能量消耗 ,同時保持分類精度等性能指標[30,32-34]。通過定製 ASIC 設計實現節能推理硬件加速器的工作已經實現了相當高的能效(1 TFlops/W),但基於反向傳播的深度學習算法需要頻繁地從遠程傳播誤差信號 ,因此很難實現有效的在線學習。由於能量效率低下和缺乏有效的在線學習方法 ,以 CNN 和 RNN 為代表的許多深度學習算法不適合以事件驅動和對能效要求極高的新興人工智能應用,例如物聯網智能傳感器和邊緣計算等[31-32,35] 。

在此背景下 ,人工智能領域科學家提出脈衝神經網絡(SNN),其被譽為第三代人工神經網絡 。

SNN 在神經元模型之間使用時序脈衝序列來表示 、傳輸和處理信息 ,來保證了更快的在線學習和更高的能量效率。相比傳統的人工神經網絡(CNN和RNN),SNN 具備了更多獨特的仿腦特性 ,包括信息的脈衝表示 、事件驅動的信息處理和基於脈衝的局部學習規則等 ,更加接近於生物神經網絡中的學習和記憶機制。因此 ,由於脈衝神經網絡其快速的在線學習 、極高的能量效率 、與人腦的高度相似性 ,近年來是人工智能科學領域極具科學意義的研究課題[36-37] 。

3.2 研究現狀

近年來 ,世界上著名的學術研究機構和國際半導體公司都在積極研究和開發基於脈衝的神經擬態 電路[38-45]。如表 3 所示 ,基於 SNN 的神經擬態計算硬 件比基於傳統 DNN 的硬件加速器具有更高的能量 效率。大多數最先進的神經擬態計算芯片[39-41 ,44]都是 基於成熟的 CMOS 硅技術對 SNN 進行 ASIC 設計 , 通過 SRAM 等存儲器模擬實現人工突觸 ,並利用關 鍵的數字或模擬電路仿生實現人工神經元。其中 最具有代表性的是 IBM 公司研發的基於 CMOS 多 核架構 TrueNorth 芯片[40] ,當模擬 100 萬個神經元和2億5000萬個突觸時,該芯片僅消耗70mW的功 耗 ,每個突觸事件僅消耗 26 pJ 的極高能量效率 。然而 ,為了模仿生物突觸和神經元的類腦特性 ,電 子突觸和神經元需要高度複雜的 CMOS 電路來實現所需的人工突觸和神經元的功能 ,如圖 2 所示 。

以 IBM 的 TrueNorth 芯片為例 ,它包含 54 億個晶體 管 ,在 28nm 工藝下佔據 4.3 cm2 的面積。因此 ,這一 類基於脈衝的神經擬態 CMOS 硬件電路使用大量 的晶體管 ,並導致耗費非常大的芯片面積。加之 , 現有的大多數神經擬態芯片[39-41 ,44] 由於其計算單元 與存儲單元在局部依然是分離的 ,這在用於神經元 的 CMOS 邏輯電路和用於突觸的 SRAM 電路之間 依然存在局部的存儲壁壘問題和能量效率問題 ,所 以實際上還不是真正意義上的非馮 · 諾依曼體系結 構。不過最新的具有三維堆疊能力的非易失性存 儲器(NVM)技術或存內計算技術(in-memory computing )有望解決這一問題 。

AI芯片发展的前世今生AI芯片发展的前世今生

另一項由 IBM 開發的基於新型 NVM 技術的脈 衝神經網絡功能芯片[42] 證明了在非馮 · 諾依曼體系 結構中使用相變存儲器(PCRAM)這一創新的 NVM技術能夠實現極低的能耗(僅為 0.9 pJ/bit)。由佔據 在交叉點的相變存儲電阻組成了十字交叉整列結 構 ,連同 CMOS 模擬電路一起實現脈衝時序依賴可塑性(STDP)學習規則的突觸可塑性功能和帶洩漏 積分放電(LIF)的神經元功能 ,如圖 3 所示。但是 , 由於預測精度的問題 ,該芯片只能執行簡單的應用 任務 ,完成基本模式的聯想學習。IBM 的基於脈衝 的神經擬態芯片反映了在人工神經元和突觸 ,以及 新興的 NMV 技術的研究領域裡最新的科研進展。

AI芯片发展的前世今生

在借鑑國外研究工作的同時 ,我國也大力發展 基於脈衝的神經擬態芯片研究。清華大學團隊提出 一款基於 CMOS 技術的多核架構類腦芯片天機一 號[44] ,實現了支持 LIF 的人工神經元功能。北京大學 團隊提出了一種基於憶阻器陣列的神經擬態芯 片[45] ,實現了簡化的 LIF 功能和簡單的赫伯學習機 制。憶阻器是一種新型的 NVM 器件 ,具有獨特的模 擬特性和可擴展性 ,並且由於其出色的能耗效率和 器件特性 ,可以進一步提高神經擬態芯片的集成規 模和整體效能[46-52] 。

至今基於脈衝的神經擬態芯片的主要研究方 法是通過對生物神經科學中已發現的生物行為特 徵進行直接模擬和仿生實現 ,包括算法建模 、電路 創新 、新型器件技術等各個層面的研究和探索。雖 然基於神經擬態計算算法的人工智能芯片技術近 年來已得到很大的發展和進步 ,但是依然難以實現 所有的已知生物學習機制 ,僅通過對 SNN 模型的優 化來達到近似或模仿一些生物現象從而實現一些簡單的學習功能 ,比如路徑規劃和手寫識別。這些簡化的類腦模型包括基於脈衝時序依賴的更新規則的突觸模型和基於確定的線性積分放電動態的神經元模型[40-41] 。

AI芯片发展的前世今生

人工智能芯片產業現狀

4.1 產業現狀評述

AI 芯片是芯片產業和人工智能產業整合的關鍵 ,特別是 AI 系統芯片。根據 Gartner 的預測數據 , 未來 5 年內全球人工智能芯片市場規模將呈飆升趨 勢 ,自 2018 年的 42.7 億美元 ,升高至 343 億美元 ,增 長已超過7倍,可見AI芯片市場有較大增長空間,如圖4所示。

對於中國 AI 芯片市場 ,根據中國信通院的數據 報告 ,中國的人工智能市場規模預計在 2018 年超過300 億人民幣 ,而 2019 年後將超過 500 億人民幣。市 場年度增長率 ,將從 2017 年的 52.8%上升至 2018 年 的 56.3% ,隨後逐年下降 ,在 2020 年降至 42.0%。其中 ,2017 年芯片銷售額占人工智能市場規模的 22% , 約47.7億人民幣,如圖5所示。

AI芯片发展的前世今生

現今 ,中國已有超過 20 家以上的新創 AI 芯片設 計企業 ,融資總額超過 30 億美元。AI 芯片行業生命 週期正處於幼稚期 ,市場增長快 ,至 2022 年將從2018 年的 42.7 億美元 ,發展至 343 億美元 ,但芯片企 業與客戶的合作模式仍在探索中。為了生存 ,行業 逐漸出現上下游整合的趨勢。雲端(含邊緣端)服務 器 、智慧型手機和物聯網終端設備等 3 個場景 ,是目 前 AI 芯片企業的主要落地市場 ,少數企業則是面向 未來的自動駕駛汽車市場。這些市場都具有千萬量 級出貨量或百億美元銷售額等特徵 。

然而 ,中國長期面臨集成電路的進口額大於出口 額的情況 ,根據海關總署的統計 ,如圖 6 所示 ,2018 年 進口總額正式突破 3 000 億美元 ,約達 3 121 億美元 , 同比 2017 年增長了 19.8%。相較之下 ,集成電路的 出口總額在 2018 年時僅 846 億美元 ,尚不到進口額的1/3 ,而同年原油進口額約為 2 400 億美元 ,由此可見,中國極度依賴於國外芯片製造商。目前國內芯片制 造技術尚待提高,但由於半導體的分工模式相當成 熟 ,國內芯片設計企業並不需要擔心芯片生產問題 。

AI芯片发展的前世今生

4.2 AI 芯片產業鏈

AI 芯片產業鏈主要分成設計—製造/封測—系統。

(1)上游:主要是芯片設計,按商業模式,可再細分成 3 種:IP 設計 、芯片設計代工和芯片設計。IP設計即設計芯片用的 IP 核(IP core)。

(2)中游:包含兩大類 ,分別是晶圓製造和封裝測試 ,晶圓不僅是在封裝時測試 ,製造後也會有一次 測試 ,封裝後再有一次 。

(3)下游:分成銷售和系統集成(system integration)企業 ,其中提供軟硬件集成解決方案的企業會被歸屬在系統集成商中 ,例如人工智能解決方 案商。

4.3 AI芯片商業模式

按半導體上游與中游的集成與否 ,市場分成兩種商業模式 。

(1)垂直集成模式:又稱 IDM,歸屬於該模式的企業業務同時包含設計和製造/封測。IDM 模式的 代表企業是英特爾和三星 。

(2)垂直分工模式:採取分工模式的企業僅只專 營一項業務 ,比如英偉達和華為海思僅有芯片設計 , 沒有製造業務,稱作Fabless;而臺積電和中芯國際僅 代工製造,不涉及芯片設計 ,稱作Foundry。

4.4 AI芯片設計產業模式

芯片設計的產業模式分為 IP 設計 、芯片設計代工和芯片設計3種。

(1)IP 設計:IP 設計相較於芯片設計是在產業鏈 的更頂層,以IP核授權收費為主。傳統的IP核授權 企業以安謀(Arm)為代表 ,新創的 AI 芯片企業雖然 也可設計出新型 IP 核 ,但因授權模式不易以規模效 應創造出可觀的收入 ,新創企業一般不以此作為主 要盈利模式。另外還有提供自動化設計(EDA tool) 和芯片設計驗證工具的 Cadence 和 Synopsys ,也在積 極部署人工智能專用芯片領域。

(2)芯片設計代工:芯片設計代工和製造業的代 工一樣 ,提供設計代工服務的企業 ,並不能在產品上 貼上自己的標籤 ,也不能對外宣稱該產品由自己設 計。芯原科技已經從事相關服務多年 ,也和恩智浦( NXP )有合作關係 。

(3)芯片設計:大部分的人工智能新創企業是以芯片設計為主 ,但在這個領域中存在傳統強敵 ,如英 偉 達 、英 特 爾 、賽 靈 思( Xilinx )和 恩 智 浦 ,因 而 目 前 只 有少數新創 AI 芯片設計企業會進入傳統芯片企業 的產品領域 ,例如 ,寒武紀與英偉達競爭服務器芯片 市場 ,地平線與英偉達及恩智浦競爭自動駕駛芯片 市場,其餘企業則是在物聯網場景上佈局,像是提供語音辨識芯片的雲知聲 ,提供人臉辨識芯片的中星 微,以及提供邊緣計算芯片的耐能科技。

半導體的垂直分工模式雖有助於純芯片設計企 業的生存 ,不過單一芯片難以單獨實現複雜功能 ,於 是有些企業開始提供芯片集成服務 ,集成後的產品 稱作系統或 IC(integrated circuit)模塊 ,在人工智能 領域則稱為 AI 系統或 AI 模塊。一般而言 ,人工智能 企業會同時提供算法和芯片的集成服務 ,該類企業 通常被稱為“人工智能方案解決商”,或稱AI一站式 服務(AI Turnkey)。

4.5 AI 芯片產品類型

根據集成的產品類型可再分成兩類 ,即硬件集成和軟件集成 。(1)硬件集成:將不同功能的芯片集成於同一塊電路板(PCB)上 ,即被稱為硬件集成 ,其中會包含核 心處理器、協處理器(加速芯片)、存儲器和其他零 件。硬件集成初級的產品是板上系統(system on board ),但終極目標是將多個芯片集成在一塊芯片上 形成系統芯片,或稱片上系統(system on chip),如圖7所示。

AI芯片发展的前世今生

(2)軟件集成:根據集成硬件的需求或純粹軟件集 成的需求 ,軟體工程師將不同軟件(software)和固件( firmware )集成起來安裝到板上系統或片上系統中 。 因 AI 芯片設計的難度並沒有過往的 CPU 高 ,為 增加行業競爭優勢 ,人工智能企業除本身提供的系統集成服務外 ,也開始往芯片設計方向整合。與此 同時 ,AI 芯片企業為了加速產品落地 ,減少尋找客戶 的難度 ,會同時兼任芯片企業和集成商這兩種身 份。於是,目前行業呈現人工智能與芯片產業雙向 整合的情況。整合後的 AI 系統集成商可以將更高性能、更低價格 、更低功耗的系統芯片( 片上系統)方案提供給客戶 。

4.6 存在的問題

因系統芯片開發技術複雜 ,人才缺口成為首要難題。系統芯片設計的關鍵技術包含但不限於以 下 6 項:(1)總線架構技術;(2)IP 核可複用技術;(3)軟硬件協同設計技術;(4)時序分析技術;(5) 驗證技術;(6)可測性設計技術。以上關鍵技術皆 涉及跨學科知識 ,且開發流程複雜 ,工序可多達 40個,每個工序都需要一位專業工程師負責執行工 作 ,開發過程需要前後反覆多次驗證設計 ,避免流片失敗。

系統芯片(SoC)設計與 AI 加速芯片(ASIC)設計 相比 ,前者的設計難度更高 ,兩者之間的差異主要表 現在以下兩點:第一,系統芯片設計需要更加了解整 個系統的運作 ,由此可更合理的定義芯片架構 ,使得 軟硬件集成達到系統最佳工作狀態。第二 ,系統芯 片設計是以 IP 核覆用為基礎 ,基於 IP 模塊的大規模 集成電路設計是系統芯片實現的關鍵。綜上所述 , 系統芯片設計團隊或以系統芯片為目標創立的 AI芯片企業 ,首先面臨的是人才技術儲備問題 ,再來才 是後續問題。

4.7 AI芯片落地情況分析

現如今 ,雲端與終端皆有 AI 芯片落地。其中服 務器 、手機 、智能家居 、自動駕駛是主要落地場景 。由於 AI 芯片是實現人工智能用途或深度學習應用 的專用芯片 ,芯片與算法的結合程度高 ,因此接下來 將會按照用途 、部署位置以及應用場景來討論 AI 芯 片的落地及相關市場規模 。

在人工智能的技術基礎上 ,深度學習算法對 於使用者來說會有“訓練”和“推理”兩種用途 ,這 是因為深度學習算法就如同人類的大腦一樣 ,需 要經過學習才能做出判斷 ,就像人要能辨識貓 狗 ,首先需要學習瞭解貓狗的特徵。因此 ,企業 在部署人工智能設備時 ,也會經歷算法/模型訓 練 ,再進行推理應用。一般來說 ,如圖 8 所示 ,執 行訓練任務的 AI 芯片僅會部署在雲端和邊緣端 上 ,而執行推理任務的 AI 芯片會部署在雲端 、邊 緣端和終端上 ,應用範圍更廣 ,這是因為推理的算力需求較低。應用場景和深度學習算法的類型有關。

計算機視覺通常會使用卷積神經網絡(CNN)訓練模型 ,自 然 語 言 處 理( NLP )則 會 使 用 循 環 神 經 網 絡( RNN )訓 練模型,AI芯片也主要應用於視覺和語言。但是,相 較於 CNN 和 RNN 等較舊的算法 ,現在深度學習算法 持續在演變中,因此行業應用時並不侷限於上述兩 類算法。每家人工智能企業都有自己獨特的算法,AI 芯片企業也是一樣 ,會根據自己的改良算法來設 計AI芯片。

AI芯片发展的前世今生

4.7.1 雲端市場

隨著雲端市場需求不斷上升 ,服務器 AI 芯片的市場前景樂觀。按照 AI 芯片的部署位置 ,可簡單將AI 芯片市場分成雲端(邊緣端併入雲端)市場和終端 市場兩類 ,具有云計算需求的行業主要是金融業 、醫 療服務業 、製造業 、零售/批發以及政府部門等 5 大行 業。

根據 IDC 數據 ,如圖 9 所示 ,雲計算需求增長快 速 ,在 2018~2019 年全球雲計算支出將迎來大幅度 增長 ,5 大行業的支出最低增長 17.3% ,最高 26.3% , 其中以醫療業的需求最高 ,超 100 億美元。與此同 時 ,根據 IDC 數據 ,2018 年第三季度全球服務器設備 的出貨量達 320 萬臺 ,營收達 234 億美元以上 ,從出 貨增長率來看 ,2018 年全年營收達 1 000 億美元以 上 ,遠超過 2017 年營收 669 億美元 。

雲計算支出的快速增長 ,代表雲計算的需求旺 盛。服務器的出貨量持續提升 ,也意味著部署服務 器的 AI 芯片的需求量跟著提升。由此可見 ,雲端芯 片的市場未來將快速增長 。

AI芯片发展的前世今生

4.7.2 終端市場

當前的終端市場上 ,主要有兩大落地場景 ,一個是智慧型手機 ,另一個是物聯網設備。手機又被稱 作移動端 ,在智慧型手機上 ,AI 芯片的主要任務是拍 照後的圖像處理 ,以及協助智慧助理的語音處理 。 根據 IDC 的數據 ,全球智慧型手機出貨量已經連續 兩年超過 14 億部 ,其中全球前 5 大廠商中有 3 家是中 國企業,按2018年出貨量由高到低排序依次為,華為2.06億部、小米1.23億部,和OPPO1.13億部。

除手機之外 ,物聯網也是當前終端市場中重 要的一部分。根據 IDC 數據 ,物聯網的市場主要 在產業應用上 ,製造業 、運輸業和公用事業合計超 過3 290億美元,其中消費性產品(包含智能家居、穿 戴設備、智慧座艙等)佔1 080億美元。AI芯片在物 聯網產品上的應用主要有兩個用途 ,一個是視覺 AI芯片 ,另一個是語音 AI 芯片 ,但因為自然語言處理 的 AI 產品開發難度高 ,目前新創 AI 芯片企業主要切 入的市場是計算機視覺設備的落地場景 ,比如家庭 安全設備。根據 IDC 數據 ,全球智能家居市場中的 家庭安全設備出貨量已達 9 770 萬臺 ,而智能音箱也 有 9 980 萬臺設備 ,兩類設備至 2022 年都會增長超過2 億以上。總而言之 ,物聯網在智能家居場景落地可 以保證具有千萬銷售量的市場。

未來,自動駕駛將是終端芯片應用的另一塊重 要場景。根據 MARKLINES 的數據 ,2014 年中國汽 車銷售量為 2 349.2 萬輛 ,2018 年已增長至 2 808.1 萬輛。中國千萬量級汽車銷售市場對於開發自動駕駛 技術的企業具有極大吸引力。縱然中國汽車銷售量 已達千萬量級 ,但目前電動車銷售量仍不及整體汽 車銷售量的 10% ,而自動駕駛技術的發展是以電動 車為主 ,電動車市場有很大的增長空間 。

AI芯片发展的前世今生

結論

目前,我國的人工智能芯片行業發展尚處於起 步階段。長期以來,中國在CPU、GPU、DSP處理器 設計上一直處於追趕地位 ,絕大部分芯片設計企業 依靠國外的 IP 核設計芯片 ,在自主創新上受到了極 大的限制。然而 ,人工智能的興起 ,無疑為中國在處 理器領域實現彎道超車提供了絕佳的機遇。人工智 能領域的應用目前還處於面向行業應用階段 ,生態 上尚未形成壟斷 ,國產處理器廠商與國外競爭對手 在人工智能這一全新賽場上處在同一起跑線上。因 此 ,基於新興技術和應用市場 ,中國在建立人工智能 生態圈方面將大有可為 。

由於我國特殊的環境和市場 ,國內 AI 芯片的發 展目前呈現出百花齊放 、百家爭鳴的態勢 ,AI 芯片的 應用領域也遍佈股票交易 、金融 、商品推薦 、安防 、早 教機器人以及無人駕駛等眾多領域 ,催生了大量的 人工智能芯片創業公司 ,如北京地平線信息技術有 限公司、北京深鑑科技有限公司、北京中科寒武紀科 技有限公司等。儘管如此 ,國內公司卻並未如國外 大公司一樣形成市場規模 ,反而出現各自為政的散裂發展現狀。除了新興創業公司 ,國內研究機構如 北京大學 、清華大學 、中國科學院等在 AI 芯片領域 都有深入研究;而其他公司如百度和北京比特大陸 科技有限公司等亦在積極佈局人工智能芯片產業 。可以預見 ,未來誰先在人工智能領域掌握了生態系 統 ,誰就掌握住了這個產業的主動權 。

<code>參考文獻
[ 1 ] YANN L C, CORTES C. The MNIST database of hand-written digits[EB/OL].[2019-02-26]. http://yann.lecun.com /exdb/mnist/.
[ 2 ] TAIGMAN Y, YANG M, RANZATO M A, et al. Deep- face: Closing the gap to humanlevel performance in face verification[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014: 1701-1708.
[ 3 ] Amazon Alexa. Ways to build with Alexa[EB/OL]. [EB/ OL]. [2019-02-24]. https://developer.amazon.com/alexa.
[ 4 ] Apple Siri. Siri does more than ever, even before you ask [EB/OL]. [2019-02-24]. http://www.apple.com/ios/siri/.
[ 5 ] Microsoft Cortana Personal Assistant. Cortana. Your intelligent assistant across your life [EB/OL]. [2019-02-24]. https://www.microsoft.com/en-us/cortana.
[ 6 ] QUIGLEY M, CONLEY K, GERKEY B, et al. ROS: an open-source Robot Operating System[C]// ICRA workshop on open source software. 2009: 5.
[ 7 ] URMSON C, BAGNELL J A, BAKER C R, et al. Tartan racing: a multi- modal approach to the DARPA urban challenge[R]. Technical report, Carnegie Mellon University, 2007.
[ 8 ] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484-489.
[ 9 ] EMILIO M, MOISES M, GUSTAVO R, et al. Pac-mAnt: optimization based on ant colonies applied to developing an agent for Ms. Pac- Man[C]// IEEE Symposium on Computational Intelligence and Games (CIG). IEEE, 2010: 458-464.
[10] CHEN T, DU Z, SUN N, et al. DianNao: a small footprint highthroughput accelerator for ubiquitous machine- learning[C]// 128 International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS). 2014: 269-284.
[11] CHEN Y, LUO T, LIU S, et al. DaDianNao: a machine-learning supercomputer[C]// 2014 47th Annual IEEE/ ACM International Symposium on Microarchitecture (MICRO). IEEE, 2014: 609-622.
[12] LIU D, CHEN T, LIU S, et al. PuDianNao: a polyvalent machine learning accelerator[C]// International Conference on Architectural Support for Programming Languages and Operating Systems (ASPLOS). 2015:369-381.
[13] DU Z, FASTHUBER R, CHEN T, et al. ShiDianNao: Shifting vision processing closer to the sensor[C]// International Symposium on Computer Architecture (ISCA). 2015:92-104.
[14] JOUPPI NP, YOUNG C, PATIL N, et al. In-datacenter performance analysis of a tensor processing unit[C]// International Symposium on Computer Architecture (IS- CA). 2017:1-12.
[15] KAPOOHT. Von Neumann architecture scheme[J/OL]. The Innovation in Computing Companion, 257- 259. https://en.wikipedia.org/wiki/Von_Neumann_architecture.
[16] FARABET C, POULET C, HAN J Y, et al. CNP: an fpga-based processor for convolutional networks[C]// International Conference on Field Programmable Logic and Applications (FPL). 2009:32-37.
[17] FARABET C, MARTINI B, CORDA B, et al. Neu Flow: a runtime reconfigurable dataflow processor for vision [C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2011:109-116.
[18] GOKHALE V, JIN J, DUNDAR A, et al. A 240 G-ops/s mobile coprocessor for deep neural networks[C]// IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) . IEEE, 2014: 682-687.
[19] NEUMANN J V. The principles of large-scale computing machines[J]. Annals of the History of Computing, 1981, 3(3):263-273.
[20] MEAD C. Neuromorphic electronic systems[J]. Proceedings of the IEEE, 1990, 78(10):1629-1636.
[21] STRUKOV D B. Nanotechnology: smart connections[J]. Nature, 2011, 476(7361): 403-405.
[22] JEFF H, BLAKESLEE S. On intelligence[M]. London:Macmillan, 2007.
[23] BENJAMIN, VARKEY B, GAO P, et al. Neurogrid: a mixed- analogdigital multichip system for large- scale neural simulations[J]. Proceedings of the IEEE, 2014, 102 (5): 699-716.
[24] MEROLLA P A, ARTHUR J V, ALVAREZ-ICAZA R, et al. A million spiking- neuron integrated circuit with a scalable communication network and interface[J]. Science, 2014, 345 (6197): 668-673.
[25] CASSIDY A S, ALVAREZ-ICAZA R, AKOPYAN F. Real- time scalable cortical computing at 46 giga- synaptic OPS/watt with ~100 × speedup in time- to- solution and ~ 100,000 × reduction in energy- to- solution[C]// SC '14: Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. IEEE, 2014.
[26] FURBER S B, GALLUPPI F, TEMPLE S, et al. The spinnaker projec[J]. Proceedings of the IEEE, 2014,102 (5): 652-665.
[27] SCHEMMEL J, BRIIDERLE D, GRIIBL A, et al. A waferscale neuromorphic hardware system for large- scale neural modeling[C]// Proceedings of 2010 IEEE International Symposium on Circuits and Systems. IEEE, 2010.
[28] LECUN Y, BENGIO Y, HINTON G, et al. Deep learning [J]. Nature, 2015, 521(7553): 436-444.
[29] KELLER J, PEREZ O. Improving MCTS and neural network communication in computer go[R]. Worcester Polytechnic Institute, 2016.
[30] ZHANG S J ,DU Z D ,ZHANG L, et al. Cambricon- X an accelerator for sparse neural networks [C]. 2016 49th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO). IEEE, 2016.
[31] KOWALIK J S. Parallel computation and computers for artificial intelligence[M]. Springer Science & Business Media, 2012.
[32] VERHELST, M, MOONS B. Embedded deep neural network processing algorithmic and processor techniques bring deep learning to IoT and edge devices[J]. IEEE Solid-State Circuits Magazine, 2017, 9(4): 55-65.
[33] JOUPPI N P, YOUNG C, PATIL N, et al. In-datacenter performance analysis of a tensor processing unit [J].44th International Symposium on Computer Architecture(ISCA), 2017.
[34] SZE V, CHEN Y H, YANG T J, et al. Efficient processing of deep neural networks a tutorial and survey [J/OL].Proceedings of the IEEE, 2017, 105(12).
[35] BENNIS M. Smartphones will get even smarter with on device machine learning[J/OL]. IEEE Spectrum, 2018. https://spectrum.ieee.org/tech-talk/telecom/wireless/smart- phones- will- get- even- smarter- with- ondevice- machine-learning.
[36] MAASS W. Networks of spiking neurons: the third generation of neural network models[J]. Neural Networks, 1997, 10(9): 1659-1671.
[37] MEAD C. Neuromorphic electronics system[J]. Proceedings of the IEEE, 1990, 78(10): 1629-1636.
[38] PAINKRAS E, PLANA L A, GARSIDE J, et al. SpiNNaker: a 1- W 18- core system- on- chip for massively- parallel neural network simulation[J]. IEEE Journal of SolidState Circuits Page(s), 2013, 48(8):1943 - 1953.
[39] BENJAMIN B V, GAO P, MCQUINN E, et al. Neu- rogrid a mixed- analog digital multichip system or large- scale neural simulations[J]. Proceedings of IEEE, 2014, 102(5): 699-716.
[40] MEROLLA P A, ARTHUR J V, ALVAREZ-ICAZA R, et al. A million spiking- neuron integrated circuit with a scalable communication network and interface[J]. Science, 2014, 345(6197): 668-673.
[41] DAVIES M, SRINIVASA N, LINT H, et al. Loihi a neuromorphic manycore processor with on-chip learning[J]. IEEE Micro, 2018, 38(1): 82 - 99.
[42]KIM S. NVM neuromorphic core with 64 k- cell(256- by- 256) phase change memory synaptic array with on-chip neuron circuits for continuous in-situ learning[C]// IEEE International Electron Devices Meeting (IEDM). IEEE, 2015.
[43] CHUM, KIM B, PARK S, et al. Neuromorphic hardware system for visual pattern recognition with memristor array and CMOS neuron[J]. IEEE Transactions on Industrial Electronics, 2015, 62(4): 2410 - 2419.
[44] SHI LP , PEI J, DENG N, et al. Development of a neuromorphic computing system[C]// IEEE International Electron Devices Meeting(IEDM). IEEE, 2015.
[45] JIANG Y N,HUANG P, ZHU, D B, et al. Design and hardware implementation of neuromorphic systems with RRAM synapses[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2018, 65(9): 2726 - 2738. [46] YU S M, CHEN P Y. Emerging memory technologies: recent trends and prospects[J]. Proceedings of the IEEE,2016, 8(2): 43 - 56.
[47] SURI M. CBRAM devices as binary synapses for low-power stochastic neuromorphic systems: auditory and visual cognitive processing applications[C]// Proceeding of IEEE International Electron Devices Meeting (IEDM), 2012: 3-10.
[48] WANG Z. Memristors with diffusive dynamics as synaptic emulators for neuromorphic computing[J]. Nature Materials, 2017, 16(1): 101-108.
[49] YANG J J, STRUKOV D B, STEWART D R. Memristive devices for computing[J]. Nature Nanotechnology,2013, 8(1): 13-24.

[50] JO S H. Nanoscale memristor device as synapse in neuro-morphic systems[J].Nano letters, 2010, 10(4): 1297-1301. [51] OHNO T. Short- term plasticity and long- term potentiation mimicked in single inorganic synapses[J]. Nature Materials, 2011, 10(8): 591-595.
[52] WANG, Z R,JOSHI S,SAVEL’EV S E, et al. Memristors with diffusive dynamics as synaptic emulators for neuromorphic computing[J]. Nature Materials, 2017, 16 (1): 101-108.
/<code>

來源:任源,潘俊,劉京京,等. 人工智能芯片的研究進展[J]. 微納電子與智能製造, 2019, 1 (2): 20-34.

REN Yuan, PAN Jun, LIU Jingjing, et al. Overview of artificial intelligence chip development [J]. Micro/nano Electronics and Intelligent Manufacturing, 2019, 1 (2): 20-34.

《微納電子與智能製造》刊號:CN10-1594/TN

主管單位:北京電子控股有限責任公司

主辦單位:北京市電子科技科技情報研究所、北京方略信息科技有限公司

【end】

AI芯片发展的前世今生
  • 福利直達!CSDN技術公開課評選進行中

  • 一文告訴你,如何使用Python構建一個“谷歌搜索”系統 | 內附代碼

  • 利用丁香園數據生成疫情分佈地圖(R語言)| 博文精選

  • 小米 10 年再創業,高端 5G 手機和 AIoT 有多少機會?

  • 在家辦公,我比上班還累你信嗎?

  • 2019年度區塊鏈安全覆盤總結


分享到:


相關文章: