AI 芯片發展現狀
從2015 年開始,AI 芯片的相關研發逐漸成為學術界和工業界研發的熱點。到目前為止,在雲端和終端已經有很多專門為 AI 應用設計的芯片和硬件系統。同時,針對目標應用是“ 訓練”還是“推斷”,我們可以把AI 芯片的目標領域分成4 個象限,如圖表3-1 所示。其中,在邊緣/ 嵌入設備中以推斷應用為主,訓練的需求還不是很明確。有些高性能的邊緣設備雖然也會進行訓練,但從硬件本身來說,它們更類似於雲端設備。未來的邊緣和嵌入設備可能都需要具備一定的學習能力,以支持在線學習功能。其他幾個象限都有自身實現的需求和約束,目前也都有針對性的芯片和硬件系統。
雲端AI 計算
在雲端,通用GPU,特別是NVIDIA 系列GPU 芯片,被廣泛應用於深度神經網絡訓練和推理。與CPU 相比,擁有數千個計算內核的GPU 可以實現10-100 倍的吞吐量。其最新的Tesla V100 除了GPU 核之外,還專門針對深度學習設計了張量核(Tensor Cores),能夠提供120 TFLOPS(每秒120萬億次浮點指令)的處理能力。同時,NVIDIA GPU 還有比較完善的軟件開發環境,同時,NVIDIA GPU還有比較完善的軟件開發環境,是目前AI 訓練領域使用最廣泛的平臺。面向雲端AI 應用,很多公司開始嘗試設計專用芯片以達到更高的效率,其中最著名的例子是GoogleTPU,可以支持搜索查詢、翻譯等應用,也是AlphaGo 的幕後英雄。由於使用了專用架構,TPU 實現了比同時期CPU 和GPU 更高的效率(如圖表3-2 所示)。第一代的TPU 僅能用於推斷,面對目前被NVIDIA GPU 賺得盆滿缽滿的深度學習訓練市場,Google 隨後又發佈了第二版TPU(TPU2),除了推斷以外,還能高效支持訓練環節的加速。Google 最近還通過雲服務把TPU 開放商用,處理能力達到180TFLOP,提供64GB 的高帶寬內存(HBM),2400GB/s 的存儲帶寬。
邊緣AI 計算
隨著人工智能應用生態的爆發,越來越多的AI 應用開始在端設備上開發和部署。對於某些應用,由於各種原因(如延遲,帶寬和隱私問題),必須在邊緣節點上執行推斷。比如,自動駕駛汽車的推斷就不能交由雲端完成,否則如果出現網絡延時,則會發生災難性後果。再比如,大型城市動輒百萬的高清攝像頭,其人臉識別如果全交由雲端完成,高清錄像的數據傳輸會讓通信網絡不堪重負。邊緣設備實際上覆蓋了一個很大的範圍,其應用場景也五花八門。比如自動駕駛汽車可能就需要一個很強的計算設備,而在可穿戴領域,則要在嚴格的功耗和成本約束下實現一定的智能 。在未來相當一部分人工智能應用場景中,邊緣設備主要執行推斷計算,這就要求邊緣處的終端設備本身具備足夠的推斷計算能力。而目前邊緣處理器芯片的計算能力並不能滿足在本地實現深度神經網絡推斷的需求。因此,業界需要專門設計的AI 芯片,賦予設備足夠的能力去應對越來越多的人工智能應用場景。除了計算性能的要求之外,功耗和成本也是在邊緣節點工作的AI 芯片必須面對的重要約束。
以下是白皮書詳情
月朗鋒行
一家專業的金融科技服務型公司,旗下品牌鋒行鏈盟專注於區塊鏈、新零售、AI領域技術探索和投資,後臺私信回覆“瀏覽”進入下載PDF完整版報告。
閱讀更多 鋒行鏈盟 的文章