崑崙加速卡和飛騰64核CPU適配,助力國產服務器火力全開

近年來,人工智能技術取得快速發展,不僅歸因於大數據的支撐,更離不開計算機芯片算力的不斷增強,而實現超級算力的核心就是 AI 芯片。


百度崑崙 AI 芯片是百度自研的雲端全功能 AI 芯片,它的積累得益於其用FPGA做AI加速的積累,也得益於其在軟件定義加速器和XPU架構的多年積累。

崑崙加速卡和飛騰64核CPU適配,助力國產服務器火力全開

架構方面,崑崙有2個計算單元,512GB/S的內存帶寬,16MB SRAM/unit。歐陽劍介紹,16MB的SRAM對AI推理很有幫助,XPU架構上的XPU-SDNN是為Tensor等而設計,XPU-Cluster則能夠滿足通用處理的需求。
在靈活性和易用性方面,崑崙面向開發者提供類似英偉達C++ UDA的軟件棧,可以通過C/C++語言進行編程,降低開發者的開發難度。百度智能芯片總經理歐陽劍給出了一系列K200對比英偉達T4的數據,其中在Gemm-Int8數據類型,4K X 4K的矩陣下,崑崙K200的Benchmark分出超過2000,是英偉達T4的3倍多。
在線上性能數據的表現上,崑崙的表現相比英偉達T4更加穩定,且延遲也有優勢。
在圖像分割YOLOV3算法中,崑崙雖然有優勢,但優勢已經不那麼明顯。不過歐陽劍表示百度仍然在通過持續的優化提高崑崙的性能。

崑崙加速卡和飛騰64核CPU適配,助力國產服務器火力全開


至於飛騰CPU,與百度崑崙 AI 芯片完成適配的飛騰 FT-2000+/64 處理器是飛騰面向高性能服務器領域的產品。


飛騰CPU處理器採用的是Armv8指令級,主要用在數據中心和雲計算中心,作為國產芯的代表,為百度崑崙 AI 芯片提供了高效完整的AI 計算流程支撐。崑崙選擇與飛騰進行很好地適配顯然是看中了國產自研芯片的大市場。

該款處理器設計了數據親和的多核處理器體系架構,突破了高效亂序超標量流水線、層次化片上並行存儲結構、多級異構片上互連網絡、高可用處理器設計等關鍵技術,實測性能達到了國際主流服務器CPU 同等水平,填補了國產高端通用 CPU 領域的空白。
目前,飛騰 CPU 已與百度崑崙 AI 芯片完成了算力、架構、技術三個方面的適配。
在新架構層面,飛騰是從雲到端的通用計算架構,同一套架構支持不同的場景,而百度崑崙採用 XPU 架構,二者的有機結合,將打造新的 “ 普適架構 ”。

崑崙加速卡和飛騰64核CPU適配,助力國產服務器火力全開

百度已推出了兩款基於崑崙的 AI 加速卡:K100 和 K200。就市場而言,隨著 “ 新基建 ” 浪潮興起,以芯片、服務器等產品為代表的信息產業發展正在按下 “ 加速鍵 ”。AI 算力需求將逐步邁入高峰期,更高性能的 AI 服務器將迎來高速增長,計算正和水、電一樣成為最基本的社會基礎設施。
飛騰 CPU 芯片、百度崑崙 AI 芯片的成功適配和即將落地的應用,將構成自主國產芯片的聯合解決方案,發揮算力的 “乘數效應 ”,助力國產服務器在 AI 場景下顯著提升算力,為眾多合作伙伴賦能。


分享到:


相關文章: