12.27 AI 芯片年終盤點:有些公司年產 N 片,有些 N 年產 1 片都難

過去幾年,人工智能產業無論是算法實現、海量數據獲取和存儲還是計算能力的體現都離不開目前唯一的物理基礎——芯片。可以說,“無芯片不 AI”,能否開發出具有超高運算能力、符合市場需求的芯片,已成為人工智能領域可持續發展的重要因素。 年終在即,AI 前線小組盤點了 2019 年國內外主流科技公司在 AI 芯片方面的進展,有些公司因為 2019 年沒有發佈新的 AI 芯片而未計入本次統計,統計維度分為主要特點、芯片參數和應用場景三部分,如有疏漏,歡迎各位留言。

芯片類型

在正式盤點之前,我們先來了解下芯片類型、芯片架構以及主要的應用場景(注:如果僅對盤點數據感興趣,可以直接跳轉到文章後半部分)。

從芯片技術類型來看,AI 芯片主要可以分為 GPU(圖形處理器)、FPGA(現場可編程門陣列)、ASIC(專用集成電路) 、類腦芯片四大類。

其中,GPU 和 FPGA 因為具有較為成熟的技術,已經佔據了市場上的大部分份額,目前由英偉達、英特爾、AMD、賽靈思等公司所主導;ASIC 的發展也不容小覷,雖然前期的投入成本較高,但因為平均性能強、功耗低等特點,ASIC 深受各大雲廠商的喜愛(如谷歌的 TPU、華為的昇騰、阿里的含光等)。類腦芯片與這些 AI 芯片相比則有些特殊,它顛覆了傳統的馮·諾依曼架構,以模擬人腦神經元結構為主,比如 IBM 的 TrueNorth 芯片、清華大學的天機芯等。

天機芯:清華大學開發的全球首款異構融合類腦芯片,今年 7 月 31 日刊登在 Nature 雜誌封面上。該芯片採用 28 nm 工藝製成,整個芯片尺寸為 3.8 X 3.8mm^2 ,由 156 個計算單元(Fcore)組成,包含約 40000 個神經元和 1000 萬個突觸。它能夠把人工通用智能的兩個主要研究方向,即基於計算機科學和基於神經科學這兩種方法,集成到一個平臺,可以同時支持機器學習算法和現有類腦計算算法。

AI 芯片年終盤點:有些公司年產 N 片,有些 N 年產 1 片都難

(來源:中國 AI 芯片產業發展白皮書)


芯片架構

芯片架構,或者稱其為指令集架構更為精確,它是計算機體系結構中與程序設計有關的部分,包含了基本數據類型、指令集、寄存器、尋址模式、存儲體系等。談及指令集架構,X86、ARM、RISC-V 是必不可少的部分,其中 X86 佔據 PC 端市場、ARM 佔據移動端市場、RISC-V 則主要是在 IoT 市場中應用。

IoT 市場是人工智能技術的主要落地應用場景,所以對於初創 AI 芯片公司來講,開源的 RISC-V 指令集架構往往是一個重要選項。另外,RISC-V 指令集架構還具有靈活性、可擴展性的特點,基於該架構設計的 AI 芯片,往往在固定的 AI 應用場景中,可以達到較為理想的能源利用和運算效率。

除此之外,AI 芯片領域的指令集架構,並不像 PC 端的 X86 架構和移動端的 ARM 架構一樣,哪怕是有 RISC-V 架構在前,AI 芯片指令集架構也未形成統一形式,各大公司也都有自研的 AI 芯片指令集架構,就比如:華為昇騰系列芯片採用的自研 CISC 指令集架構、寒武紀思元系列芯片採用的 MLUv02 指令集架構、地平線旭日、征程系列芯片採用的 BPU 架構、深鑑科技的自研 DPU 指令集架構······

應用場景

按照部署位置,AI 芯片可以分為雲端部署和終端部署兩種。其中雲端部署的 AI 芯片大部分是指用於數據中心的 AI 訓練芯片和 AI 推理芯片,終端部署的 AI 芯片則大部分是指用於移動終端、自動駕駛、智能家居等邊緣終端應用場景的 AI 推理芯片。雖然由於算力的限制,終端位置並不適合用於 AI 模型的訓練,但其碎片化的特點,反而使得終端推理市場的前景一片廣闊。

AI 芯片年終盤點:有些公司年產 N 片,有些 N 年產 1 片都難

AI 芯片應用價值領域分佈(來源:中國 AI 芯片產業發展白皮書)


數據中心(雲端)

數據中心,或者說是雲端訓練用 AI 芯片的市場主要是以英偉達的 GPU 為主,專用芯片 ASIC 為輔。相對於 ASIC 的“專用”侷限性,目前包括全球排名前四(AWS、GCP、Microsoft Azure、阿里雲)的公共雲中,英偉達 GPU 的市場份額佔到了 97% 以上。

儘管當前的 AI 訓練任務相關的解決方案有 3 種,英偉達的 GPU + CUDA 計算平臺,第三方異構計算平臺 OpenCL + AMD GPU 或 OpenCL + 英特爾 /Xilinx FPGA,谷歌的 TPU + Cloud TPU 平臺。但從市場份額、生態完善程度、性價比等方面比較來講,大多數企業和開發者選擇了英偉達的 GPU。

AI 芯片年終盤點:有些公司年產 N 片,有些 N 年產 1 片都難

具體 AI 芯片份額


隨著各大公司對雲端戰略的不斷加碼,又有谷歌 TPU 成功案例的引導,各大雲廠商也開始不斷推出自己的雲端用 AI 芯片。比如亞馬遜近期發佈的雲端推理用 Inferentia 芯片、華為推出的雲端訓練用昇騰系列芯片、阿里平頭哥推出的雲端推理用含光 800 等。事實上,雲端推理用 AI 芯片市場是一種百家爭鳴的局面,像百度、微軟、Facebook、英特爾等巨頭企業都有不同程度的涉及,只不過採用的技術類型並不統一而已。

移動終端

隨著全球智能手機出貨量趨於平穩,各智能手機廠商開始將 AI 性能作為競爭的重要因素之一,而搭載性能更佳的 AI 芯片則變成了智能手機廠商實現差異化競爭的標準手段。

華為海思推出的麒麟 970 是全球第一款集成專用神經網絡處理單元(NPU)的 SoC 芯片,隨後蘋果發佈的 A 系列芯片、高通的驍龍系列芯片也都集成有 AI 技術,從此 AI 芯片也就成為了智能手機的一種標準配置,並逐漸進入到普及階段。

另外,在移動端,如智能手環、VR/AR 眼鏡等可穿戴設備都將是 AI 芯片的潛在市場。換句話說,AI 芯片憑藉在圖像、語音方面的快速處理能力,將會為人們帶來一種全新的人機交互方式,而就目前而言,像谷歌、蘋果、華為、小米等諸多公司都已經不同程度的進軍到了可穿戴設備市場,所以,移動終端中的 AI 芯片,也將會因此置於一個非常重要的位置。

智慧安防

人工智能技術在智慧安防中的應用尤為廣泛,尤其是在平安城市、智慧城市等大方向建設的推動下,國內的安防行業不斷擴大。而在智能安防系統中,AI 芯片是不可或缺的存在,對此,一大批 AI 芯片廠商湧入,其中既有寒武紀、地平線等 AI 芯片創企,也有傳統安防芯片霸主華為海思的強勢入局。

就解決方案而言,智慧安防有兩種思路,一種是智能前置,另一種是智能後置,相對應的,在安防中 AI 芯片的部署也可以分為前置和後置,簡單來說,就是利用雲端推理和終端推理兩種不同的推理方式,以實現智能分析、圖像信號處理等作用。

不過出於對成本的考慮,現階段的安防 AI 芯片多為終端推理用 AI 芯片,相關的安防芯片廠商,會將 AI 模塊集成於攝像機 SoC 的芯片中,以達成 AI 技術集成的目的。然而,儘管雲端推理的成本較高,安防領域的 AI 芯片也正在向著“雲邊結合”的方向發展,畢竟終端存在著諸如算力不足、算法要求高、運維難度大等缺點。

自動駕駛

對自動駕駛行業而言,芯片同樣重要,除了搭建自動駕駛系統,其硬件基礎車軌級 AI 芯片也是不容忽視的。換句話說,全棧系統開發和車規 AI 芯片開發是兩個行業層面的工作,而目前的車規級 AI 芯片還處在從嵌入式 GPU 到 FPGA、ASIC 的轉變階段。

過去兩年,自動駕駛企業主要是通過嵌入式 GPU 搭建自動駕駛系統,而一些有實力的企業會採用嵌入式 GPU+FPGA 的深度優化方案,未來的自動駕駛芯片則有可能慢慢向 FPGA+ASIC 的方向過渡。總之,自動駕駛技術的發展,和 AI 芯片的發展是密不可分的。

今年 8 月,地平線在世界人工智能大會上發佈了中國首款車規級 AI 芯片征程 2.0 ,搭配地平線自研的 Matrix 自動駕駛計算平臺,可以提供 192 TOPS 的算力。除此之外,今年 4 月份,特斯拉也首次公開了他們的全自動駕駛(FSD)芯片,7 月份,馬斯克在推特表示,將會對購買了全自動駕駛功能的用戶免費更換 FSD 芯片;而對於自動駕駛領頭羊——谷歌 Waymo,其應用了英偉達和英特爾的 FPGA 芯片。

2019 年國內 AI 芯片主要玩家盤點

阿里巴巴

1、玄鐵 910

  • 主要特點:玄鐵 910 基於 RISC-V 開源架構開發,核心針對高性能計算,是一款 IP core,是一款處理器,也可以理解為是 SoC 裡的 CPU。
  • 芯片參數:單位性能 7.1 Coremark/MHz,主頻在 12nm 工藝下達到 2.5GHz。性能在 Core Mark 跑分數據中達到 7.0,超過第二名 40% 以上,主頻功耗僅為 0.2 瓦。玄鐵 910 採用 3 發射 8 執行的複雜亂序執行架構,是公開的 RISC-V 處理器中首個實現每週期 2 條內存訪問的處理器,對 RISC-V 指令的系統性增強擴展到 50+ 條指令。
  • 應用場景:玄鐵 910 用於設計製造高性能端上芯片,應用於 5G、人工智能以及自動駕駛等領域。

2、含光 800

  • 主要特點:含光 800 是一款雲端推理用 AI 芯片,可以用於數據中心、邊緣服務器和大型端上。
  • 芯片參數:含光 800 採用臺積電 12nm 製作工藝,在業界標準的 ResNet-50 測試中,推理性能達到 78563 IPS,比目前業界最好的 AI 芯片性能高 4 倍;能效比 500 IPS/W,是第二名的 3.3 倍。
  • 應用場景:主要用於雲端視覺處理場景,含光 800 已開始應用在阿里巴巴內部核心業務中。拍立淘商品庫每天新增 10 億商品圖片,使用傳統 GPU 算力識別需要 1 小時,使用含光 800 後可縮減至 5 分鐘。在杭州城市大腦的業務測試中,1 顆含光 800 的算力相當於 10 顆 GPU。

華為

1、麒麟 ****990 5G

  • 主要特點:麒麟 990 5G 據報道是業界首款商用的 5G SoC,也是目前晶體管數最多、功能最完整、複雜度最高的 5G SoC,是首個採用達芬奇架構 NPU 的旗艦芯片,也是華為昇騰系列芯片在端側的應用。
  • 芯片參數:麒麟 990 5G 採用 7nm+ EUV 工藝製程,首次將 5G Modem 集成到 SoC 上,板級面積相比業界其他方案小 36%,採用兩個大核 + 兩個中核 + 四個小核的 CPU 架構,支持超過 300 個算子,90% 的視覺計算神經網絡,性能表現比同類產品要強 8 倍之多。麒麟 990 5G 也對 GPU 進行了升級,升級到 16 核 GPU Mali-G76。與驍龍 855 相比,圖形性能提高 6%,能效高 20%。與前一代相比,視頻優化處理能力有了很大提升,ISP 吞吐率提升 15%,能效提升 15%,照片降噪 30%,視頻降噪 20%。
  • 應用場景:華為今年發佈的年度旗艦 5G 手機 Mate 30 系列已經搭載該芯片。

2、昇騰 910

  • 主要特點:昇騰 910 是目前已發佈的單芯片計算密度最大的 AI 芯片。
  • 芯片參數:昇騰 910 是目前為止計算密度最大的單芯片,最大功耗為 350W,半精度為(FP 16)256 Tera FLOPS,比英偉達 V100 的 125 Tera FLOPS 還要高出近 1 倍。若集齊 1024 個昇騰 910,將會出現迄今為止全球最大的 AI 計算集群,性能也將達到 256 個 P,不管多複雜的模型都能輕鬆訓練。在算力方面,昇騰 910 完全達到設計規格,即:半精度 (FP16) 算力達到 256 Tera-FLOPS,整數精度 (INT8) 算力達到 512 Tera-OPS,重要的是,達到規格算力所需功耗僅 310W,明顯低於設計規格的 350W。
  • 應用場景:華為已經把昇騰 910 用於實際 AI 訓練任務,比如在典型的 ResNet50 網絡的訓練中,昇騰 910 與 MindSpore 配合,與現有主流訓練單卡配合 TensorFlow 相比,顯示出接近兩倍的性能提升。

3、昇騰 310

  • 主要特點:昇騰 310 是目前面向計算場景最強算力的 AI SoC。
  • 芯片參數:昇騰 310 採用華為自研達芬奇架構,使用了華為自研的高效靈活 CISC 指令集,每個 AI 核心可以在 1 個週期內完成 4096 次 MAC 計算,集成了張量、矢量、標量等多種運算單元,支持多種混合精度計算,支持訓練及推理兩種場景的數據精度運算。統一架構可以適配多種場景,功耗範圍從幾十毫瓦到幾百瓦,彈性多核堆疊,可在多種場景下提供最優能耗比。
  • 應用場景:基於昇騰 310 的 MDC 和很多國內外主流車企在園區巴士、新能源車、自動駕駛等場景已經深入合作。基於昇騰 310,華為雲提供了圖像分析類服務、OCR 服務、視頻智能分析服務等雲服務。基於昇騰 310 的 Atlas 系列板卡、服務器,與數十傢伙伴在智慧交通、智慧電力等數十個行業落地行業解決方案。

崑崙系列芯片

  • 主要特點:崑崙系列芯片基於 XPU 架構設計,包括訓練用崑崙 818-300 和推理用崑崙 818-100 兩種 AI 芯片。2018 年 7 月,崑崙芯片在百度開發者大會上首次曝光,當時號稱業內設計算力最高的 AI 芯片。
  • 芯片參數:崑崙芯片採用三星 14nm 製作工藝,支持 PCIe 4.0 x8,並提供 512 GBps 的內存帶寬,能夠在 150 W 的功率下實現 260 TOPS 的處理能力;它支持針對自然語言處理的預訓練模型 Ernie,推理速度比傳統 GPU/FPGA 加速模型快 3 倍。
  • 應用場景:該款芯片將主要用於雲計算和邊緣計算,預計在 2020 年初實現量產。

燧原科技

邃思 DTU

  • 主要特點:邃思 DTU 基於通用 AI 處理器的設計,具備一定的可編程性,是一款雲端訓練用 AI 芯片。
  • 芯片參數:燧思 DTU 採用 12nm FinFET 製作工藝,集成有 141 億個晶體管,具備 16Gbps 的 PCIe 4.0 接口和 25Gbps 的 ESL 高速互聯;支持 CNN、RNN、LSTM、BERT 等網絡模型以及 FP32、FP16、BF16、Int8、Int16、Int32 等數據類型,最大功耗為 200W。
  • 應用場景:搭載邃思 DTU 的加速板卡雲燧 T10 已經可以實現量產,預計 2020 年第一季度上市。據瞭解,目前燧原科技已經與騰訊針對通用人工智能應用場景的項目開展了密切的合作。

寒武紀

1、思元 220

  • 主要特點:思元 220 基於寒武紀自研架構 MLUv02 設計,是一款專門用於邊緣計算應用場景的 AI 加速產品。
  • 芯片參數:思元 220 集成有 4 核 ARM CORTEX A55、LPDDR4x 內存以及豐富的外圍接口。用戶既可以使用思元 220 作為 AI 加速協處理器,也可以使用其實現 SoC 方案。思元 220 的整體功耗小於 15W ,算力可達 16TOPS(INT8)。
  • 應用場景:可用於智慧工廠、智慧零售、無人機、智能機器人等諸多應用場景。

2、思元 270

  • 主要特點:思元 270 基於寒武紀自研架構 MLUv02 設計,是一款雲端推理用 AI 芯片。
  • 芯片參數:思元 270 採用臺積電 16nm 製作工藝,性能是上一代 MLU100 的 4 倍,算力達到 128TOPS(INT8);同時兼容 INT4 和 INT16 運算,理論峰值分別達到 256TOPS 和 64TOPS;支持浮點運算和混合精度運算。功耗 70W~150W。
  • 應用場景:思元 270 支持視覺、語音、自然語言處理以及傳統機器學習等多種人工智能應用,可應用於推薦引擎、NLP、智能視頻分析等多種場景。

地平線

1、征程 2.0

  • 主要特點:征程 2.0 基於地平線自研架構 BPU2.0 設計,是中國首款車規級 AI 芯片(用於自動駕駛)。
  • 芯片參數:征程 2.0 可提供超過 4 TOPS 的等效算力,典型功耗 2W,滿足 AEC-Q100 標準,每 TOPS 算力可以處理的幀數是同等算力 GPU 的 10 倍以上,識別精度超過 99%,延遲少於 100 毫秒,多任務模式下可以同時執行超過 60 個分類任務,每秒鐘識別目標數可超過 2000 個。
  • 應用場景:目前,征程 2.0 芯片已實現量產,將主要應用於自動駕駛領域。據瞭解,地平線已經獲得了五個國家市場客戶的前裝定點項目。

2、旭日 2.0

  • 主要特點:旭日 2.0 基於地平線自研架構 BPU2.0 設計,屬於終端推理用 AI 芯片。
  • 芯片參數:旭日 2.0 分類模型 MobileNet V2 的運行速度超過每秒 700 張圖片,檢測模型 Yolo V3 的運行速度超過每秒 40 張圖片,能夠達到甚至超過業內標稱 4TOPS 算力的 AI 芯片;最大輸入分辨率為 4K@30fps;支持主流外部接口;功耗為 2W。
  • 應用場景:旭日 2.0 在邊緣端即可實現全視頻結構化能力,可以完成 10-30 萬人前端識別、密集人群時空屬性行為分析、以及多種非機動車 / 機動車檢測分類。適用於 AIoT 領域。

思必馳

TH1520

  • 主要特點:TH1520 是一款聚焦於語音應用場景下的 AI 專用芯片。
  • 芯片參數:TH1520 進行了算法硬件優化,基於雙 DSP 架構,內部集成 codec 編解碼器以及大容量的內置存儲單元,同時,TH1520 採用了 AI 指令集擴展和算法硬件加速的方式,使其相較於傳統通用芯片具有 10X 以上的效率提升。此外,TH1520 在架構上具有算力及存儲資源的靈活性,支持未來算法的升級和擴展。兼具低功耗及實用性,採用多級喚醒模式,內置低功耗 IP,使其在 always-on 監聽階段的功耗低至毫瓦級,典型工作場景功耗僅需幾十毫瓦,極端場景峰值功耗不超過百毫瓦。該芯片支持單麥、雙麥、線性 4 麥、環形 4 麥、環形 6 麥等全系列麥克風陣列,同時支持 USB/SPI/UART/I2S/I2C/GPIO 等應用接口和多種格式的參考音,能在各類 IOT 產品中靈活部署應用。
  • 應用場景:主要面向智能家居、智能終端、車載、手機、可穿戴設備等各類終端設備。

依圖科技

依圖芯片 questcore(求索)

  • 主要特點:據介紹,這是全球首款深度學習雲端定製 SoC 芯片,已經實現量產。
  • 芯片參數:依圖芯片 questcore(求索)基於擁有自主知識產權的 ManyCore 架構,基於領域專用架構(Domain Specific Architecture,DSA)理念。作為雲端服務器芯片,它可以獨立運行,不依賴 Intel x86 CPU。雖說是為了服務器芯片而生,questcore 既支持雲端,也支持邊緣。在實際的雲端應用場景,依圖 questcore 最高能提供每秒 15 TOPS 的視覺推理性能,最大功耗僅 20W,比一個普通的電燈泡還小。集成度高,能高效適配各類深度學習算法,模型兼容性好,可擴展性高,支持 TensorFlow、PyTorch 等各類深度學習框架,無縫接入現有生態。
  • 應用場景:專為計算機視覺應用而生,針對視覺領域的不同運算進行加速,適用於人臉識別、車輛檢測、視頻結構化分析、行人再識別等多種視覺推理任務。

瑞芯微電子

RK3399Pro

  • 主要特點:RK3399Pro 還內置了性能高達 3.0Tops、融合了瑞芯微 Rockchip 在機器視覺、語音處理、深度學習等領域的多年經驗打造的 NPU,讓典型深度神經網絡 Inception V3、ResNet34、VGG16 等模型在其上的運行效果表現出眾,性能大幅提升。
  • 芯片參數:RK3399Pro 採用專有 AI 硬件設計,NPU 運算性能高達 3.0Tops,高性能與低功耗指標均大幅領先:相較同類 NPU 芯片性能領先 150%;相較 GPU 作為 AI 運算單元的大型芯片方案,功耗不到其所需的 1%。RK3399Pro 的 NPU 支持 8bit 與 16bit 運算,能夠兼容各類 AI 軟件框架。現有 AI 接口支持 OpenVX 及 TensorFlowLite/AndroidNN API,AI 軟件工具支持對 Caffe/TensorFlow 模型的導入及映射、優化。RK3399Pro 這顆 AI 芯片採用雙核 Cortex-A72+ 四核 Cortex-A53 的 big.LITTLE 大小核 CPU 架構,芯片在整體性能、功耗方面具技術領先性。同時,芯片還集成了四核的 ARM 高端 GPU Mali-T860,進一步提升了芯片在圖形處理方面的能力。
  • 應用場景:主要應用於智能駕駛、圖像識別、安防監控、無人機、語音識別等各 AI 應用領域。

紫光展銳

虎賁 T710

  • 主要特點:虎賁 T710 是一個高性能 AI 邊緣計算平臺。
  • 芯片參數:虎賁 T710 採用 8 核 CPU 架構,其中 4 顆為 2.0GHz 的 Arm Cortex-A75,4 顆為 1.8GHz 的 Arm Cortex-A55;並搭載工作頻率為 800MHz 的 IMG PowerVR GM 9446 圖形處理器(GPU)。除了架構和算力,該芯片能效大於等於 2.5TOPS/W,超過業界平均水平 30%;支持多種 AI 訓練框架, 如 TensorFlow、TensorFlow Lite、Caffe 等;支持多種 AI 模型量化方式,包括 INT4、INT8、INT16 和 FP16 等;支持 Android NN,並且提供紫光展銳自研 SDK,使第三方應用程序更高效部署 AI 功能。整合瞭如 4K@30fps 編解碼,802.11AC,BT 5.0 等強大的多媒體能力和先進的無線通信能力。
  • 應用場景:為各類 AI 應用提供高效能、低功耗的技術基礎。

2019 年國際 AI 芯片主要玩家盤點

英特爾

NNP-T 和 NNP-I

  • 主要特點:NNP 系列芯片主要用於數據中心,NNP-T 屬於雲端訓練用 AI 芯片,NNP-I 則屬於雲端推理用 AI 芯片。
  • 芯片參數:NNP-T 代號 Spring Crest,採用了臺積電的 16nm 製作工藝,集成有 270 億個晶體管,支持 TensorFlow、PaddlePaddle、PyTorch 框架,同時也支持 C++ 深度學習軟件庫和編譯器 nGraph。NNP-T 的工作頻率是 1.1GHz,風冷條件下功率配置為 150W 到 250W。NNP-I 代號 Spring Hill,採用了 10nm 的製作工藝,它在 ResNet50 的效率可達 4.8TOPs/W,功率範圍在 10W 到 50W 之間。
  • 應用場景:據英特爾稱,NNP-I 已經被 Facebook 採用;NNP-T 也與百度達成了合作。NNP 系列芯片將主要應用於數據中心。

英偉達

Orin 芯片

  • 主要特點:Orin 是一款用於自動駕駛的系統級 AI 芯片,集成有 170 億個晶體管,並且達到了 ISO 26262 ASIL-D 等系統安全標準。
  • 芯片參數:Orin 系統級芯片集成了英偉達新一代 GPU 架構和 Arm Hercules CPU 內核以及全新深度學習和計算機視覺加速器,每秒可運行 200 萬億次計算,幾乎是英偉達上一代 Xavier 系統級芯片性能的 7 倍。
  • 應用場景:英偉達發佈的全新的軟件定義自動駕駛平臺 DRIVE AGX Orin,內置了全新的 Orin 系統級芯片。

亞馬遜

Inferentia 芯片

  • 主要特點: Inferentia 是一款專用於機器學習推理的 ASIC 芯片,它具有大容量片上內存,可用於緩存大型模型,而無需將它們存儲到芯片以外。
  • 芯片參數:Inferentia 芯片支持 FP16、BF16 和 INT8 數據類型,算力達 128 TOPS。還支持 TensorFlow、Apache MXNet 和 PyTorch 深度學習框架以及使用 ONNX 格式的模型。與 EC4 上的常規英偉達 G4 實例相比,藉助 Inferentia,AWS 可提供更低的延遲和三倍的吞吐量,且每次推理成本降低 40%。
  • 應用場景:Inferentia 芯片將主要用於雲端推理任務。

賽靈思

Virtex UltraScale+ VU19P

  • 主要特點:這是一款 FPGA 芯片,考慮到芯片設計背後需要更大容量的 FPGA 實現高效仿真和功能驗證,因此也出現在了本次的盤點名單中。
  • 芯片參數:VU19P FPGA 採用臺積電 16nm 工藝製造(上代為 20nm),基於 ARM 架構,集成了 16 個 Cortex-A9 CPU 核心、893.8 萬個系統邏輯單元、2072 個用戶 I/O 接口、224Mb(28MB)內存,DDR4 內存帶寬最高 1.5Tbps(192GB/s),80 個 28G 收發器帶寬最高 4.5Tbps(576GB/s),支持 PCIe 3.0 x16、PCIe 4.0 x8、CCIX。
  • 應用場景:主要面向最頂級 ASIC、SoC 芯片的仿真和原型設計,以及測試、測量、計算、網絡、航空、國防等應用領域,支持各種複雜的新興算法,包括人工智能、機器學習、視頻處理、傳感器融合等。

蘋果

A13 仿生芯片

  • 主要特點:宣稱具備智能手機有史以來最好的機器學習性能
  • 芯片參數:該款芯片包含 85 億個晶體管,同時配備有 6 個 CPU 核心:兩個運行主頻為 2.66 GHz 的高性能核心(稱為 Lightning)與四個高能效核心(稱為 Thunder)。另外,其還擁有一塊四核圖形處理器,一個 LTE 調制解調器,一款蘋果自主設計的圖像處理器,外加一套每秒可運行超過 5 萬億次運算的八核機器智能神經引擎。這款新的芯片體積更小、智能度更高、性能更強,同時又通過某種神奇的方式獲得了低於上代方案的功耗水平。事實上,其能效較去年的 A12 芯片提高了約 30%,這也成為新一代 iPhone 實現 5 個小時電池續航提升的重要基礎之一。
  • 應用場景:iPhone
AI 芯片年終盤點:有些公司年產 N 片,有些 N 年產 1 片都難


分享到:


相關文章: