ISSCC 2020:AI芯片架構的轉變

2020年2月16日-20日,第67屆IEEE 國際固態電路峰會(ISSCC 2020)於美國舊金山召開,中國共23篇論文獲收錄,包括中國內地15篇,其中,清華大學5篇,澳門6篇,香港2篇,創造了歷年來的新高,全球僅次於美國、韓國位列第三。

ISSCC代表著芯片領域的國際最高學術水平,是國際上規模最大、最權威、水平最高的固態電路國際會議,被稱為集成電路行業的芯片奧林匹克大會。國際上最先進的固態集成電路技術通常會在該峰會上首次發佈。ISSCC 2020共收錄了210篇論文,全部都來自全球的一流大學、研究機構以及AMD、Intel、IBM、TI等頂尖企業。繼2019年實現中國首篇人工智能芯片ISSCC論文突破後,清華劉勇攀教授帶領的智能傳感團隊和湃方科技再次貢獻2篇人工智能芯片ISSCC論文。

引領低功耗AI領域:從通用到專用架構

ISSCC 2020以“Integrated Circuits Powering the AI ERA”為主題。此外,本屆峰會在技術組委會籌建方面新增了一個亮點,“機器學習及人工智能”成立了獨立的技術小組分會。新設“High-Performance Machine Learning”和“Low-Power Machine Learning”兩個機器學習分會,且六個論壇中有兩個與人工智能相關,足以見得該領域的重要性。

隨著物聯網、大數據、人工智能等技術的迅猛發展,全球數據量呈井噴式增長,相當一部分的運算將在本地終端進行而不是藉助雲端資源。與此同時,解決這些集成了傳感和智能計算的無線終端面臨的功耗問題就變成了一大挑戰。而“Low-Power Machine Learning”分會正是針對智能無線終端等對功耗有極致要求的領域。該分會全部3篇論文均來自中國內地,分別是針對語音、視頻以及稀疏網絡等專用智能架構的研究與探索,其中2篇為該團隊研究成果。

ISSCC 2020:AI芯片架構的轉變

Figure1 Program-Session 14

又見低功耗的天際

基於幀間數據計算複用的視頻應用AI處理器

在智能汽車自動駕駛、智能無人機目標追蹤、智能攝像機主動監測等場景中均使用了機器學習技術,傳統AI處理器主攻靜態圖像處理,難以滿足多幀視頻圖像處理的需求。團隊袁哲博士在論文“A 65nm 24.7μJ/Frame 12.3mW Activation-Similarity-Aware Convolutional Neural Network Video Processor Using Hybrid Precision, Inter-Frame Data Reuse and Mixed-Bit Width Difference-Frame Data Codec”(14.2)中,提出了一款面向視頻應用的神經網絡處理器Sticker-V,包含以下關鍵技術點:

(1)利用視頻數據中幀間相似性,在傳統幀內數據複用基礎上新增了幀間複用維度,實現了在不損失網絡精度的前提下提高計算速度的效果;

(2)根據神經網絡計算的數據複用與稀疏模式,設計了可配置三種卷積模式的計算單元和帶累加功能的存儲單元,提高了網絡層內數據利用效率和幀間數據複用;

(3)針對幀間數據複用模式,設計了兩通路變比特長度片上片下數據壓縮模塊,有效降低數據傳輸量。

ISSCC 2020:AI芯片架構的轉變

Figure2 Simple Chip Application Case in Autopilot

一個簡單的應用案例如上圖所示。攝像頭從外界採集數據。而後經過神經網絡計算,輸出方向盤角度,從而控制車輛實現自動駕駛。

下圖展示了第一個卷基層後10張典型Feature Map。左圖為不做差分的結果。右面為差分結果。可以看到,差分後Feature Map值的動態範圍明顯減小。這就給加速器進一步提升能量效率提供了可能。

ISSCC 2020:AI芯片架構的轉變

Figure3 Feature Map

同時,對於傳輸來講,通過幀間差分壓縮數據動態範圍的方法,把數據分為低比特數據和高比特數據以後,能進一步達到縮減傳輸數據量的效果。

ISSCC 2020:AI芯片架構的轉變

Figure4 Diff Frames Application in Data Transmission

該芯片在TSMC 65nm工藝上成功流片,最高可節省76%的單幀處理能量,將MobileNet-16網絡模型的單幀處理能量降低至24.7μJ/Frame。

ISSCC 2020:AI芯片架構的轉變

Figure5 Sticker-V Chip Micrograph and Summary Table

自適應稀疏存內計算芯片——新興電路架構

存內計算是一種新興的電路架構,具有高並行度、高能量效率的特點。目前的存內計算電路架構面臨的一個重要問題是規則存內計算電路無法支持不規則的稀疏神經網絡,造成計算資源的大量浪費。團隊嶽金山博士在論文“A 65nm Computing-in-Memory-Based CNN Processor with 2.9-to-35.8TOPS/W System Energy Efficiency Using Dynamic-Sparsity Performance-Scaling Architecture and Energy-Efficient Inter/Intra-Macro Data Reuse”(14.3)提出了首款基於存內計算核心的系統級神經網絡處理器Sticker-IM,包含以下關鍵技術點:

(1)在規則的存內計算陣列上實現了不規則稀疏網絡的優化,利用稀疏網絡權重和輸入數據的動態優化,提高芯片能效並加速計算。對於網絡權重的稀疏,傳統的1維細粒度稀疏方式難以在規則的存內計算陣列中節省計算時間和功耗,而3維粗粒度稀疏方式難以獲得理想的網絡壓縮效果。Sticker-IM架構將稀疏粒度設置為存內計算陣列的一個基本計算單元大小,如下圖所示,採用按塊稀疏的策略,將每個計算單元識別為需要計算的稠密塊和可以跳過的稀疏塊(全為0值),消除對稀疏塊進行計算的開銷。對於輸入圖像數據的稀疏,Sticker-IM採用了實時檢測、動態調整的方式,根據預先設定的閾值,將當前輸入向量中的0值的數量與閾值比較,判斷當前輸入向量為稀疏或非稀疏,從而打開雙倍或單倍數量的基本計算單元塊,在保證不發生計算溢出的同時,利用輸入向量的稀疏特性加速計算,實現稀疏特性和計算性能的動態調整。

ISSCC 2020:AI芯片架構的轉變

Figure6 Weight Sparsity-Aware Power-Saving with Adaptive Power-on/off

(2)實現了基於存內計算核心的片上系統芯片,支持不同比特的整體神經網絡模型的動態映射和執行,通過靈活的網絡映射和數據複用方法提升了系統資源利用率和數據訪問效率。如下圖所示,在單個存內計算核心內部,在對輸入數據的不同比特位置和不同行的基本計算單元塊進行循環操作時,輸出結果可以在計算核心的輸出端進行累加,避免頻繁地將數據寫到下一層存儲,節省功耗;另一方面,來自不同輸入通道的數據可以映射在多個計算核心上面同時計算,將輸出結果累加起來。輸出的部分和結果保存在一個小的SRAM緩存單元,並通過對於不同位置的輸入數據,將對應的輸出結果循環累加,降低頻繁寫回更底層存儲器的功耗開銷。

ISSCC 2020:AI芯片架構的轉變

Figure7 Intra/Inter-Macro Data Reuse

(3)設計了可動態關斷的存內計算核心處理單元,實現了存內計算單元對運行稀疏網絡的功耗優化。根據當前計算的權重塊的稀疏特性,一個1比特的索引用來關閉對應的數據讀取處理單元Processing Unit (PU),而PU在一個傳統的存內計算核心中佔據了大約95%的功耗。通過動態關斷PU,在測試的不同稀疏度的神經網絡模型中,分別可以將存內計算核心的功耗降低2.4-13.6倍。同時,通過配置符號位的採樣電容充放電,PU還支持靈活的2-補碼和非2-補碼(即源碼)方式的數據讀出,從而支持不同的權重比特精度。

ISSCC 2020:AI芯片架構的轉變

Figure8 Flexible Sparsity-Aware Processing Unit with Adaptive Power-on/off

該芯片在TSMC 65nm工藝上成功流片,在MNIST和CIFAR-10數據集的不同神經網絡模型中,實現了最高158TOPS/W的核心能量效率和最高35.8TOPS/W的系統能量效率。

ISSCC 2020:AI芯片架構的轉變

Figure9 Sticker-IM Chip Micrograph and Summary Table


分享到:


相關文章: