谷歌TPU3.0性能提升8倍,卻遭微軟

谷歌TPU3.0性能提升8倍,卻遭微軟/Facebook“圍攻”

去年,谷歌 I/0 公佈了 TPU 2.0,且開放給了谷歌雲客戶。昨日(5月9日),皮查伊正式宣佈 TPU 3.0 版本。

谷歌TPU3.0性能提升8倍,卻遭微軟/Facebook“圍攻”

TPU也就是TensorProcessorUnit,Google為機器學習定製的專用芯片(ASIC),專為Google的深度學習框架TensorFlow而設計。TPU3.0採用8位低精度計算以節省晶體管,速度能加快最高100PFlops(每秒1000萬億次浮點計算)。

皮查伊介紹,除了顯而易見的外形變化之外,TPU 3.0比去年的TPU 2.0強大八倍——強大到Google需要第一次在自己的數據中心引入液冷技術。新版TPU 3.0可以支持更好、更大、更精準的AI模型,更高效地服務數據中心,便於定製硬件方案。

據瞭解,TPU 3.0將幫助谷歌改進使用AI的應用程序,包括在音頻記錄中識別正在說話的人的身份、在照片和視頻中發現對象以及在文本中識別潛在情緒等。因此,這款芯片完全可以稱為英偉達圖形處理單元(GPU)的替代品。

此外,如果新版本TPU與它的前身類似,也將通過谷歌的公共雲服務向第三方開發者開放,這將幫助谷歌與亞馬遜和微軟競爭。本週早些時候,微軟發佈了可用於其Azure雲平臺的特殊芯片。

新發布的TPU3.0使用8位低精度計算以節省晶體管,對精度影響很小但可以大幅節約功耗、加快速度,同時還有脈動陣列設計,優化矩陣乘法與卷積運算,並使用更大的偏上內存,減少對系統內存的依賴。

皮查伊表示,當人們大規模使用第三代TPU時,可享受更強大計算能力的支持。他說:“現在,每個芯片的性能都是去年的8倍,遠遠超過了100Petaflops(Petaflops:每秒一千兆/一千萬億(10^15)次的浮點運算)。”而目前,容納16個英偉達最新GPU的盒子僅能提供2Petaflops的計算能力。

TPU3 pod和TPU2 pod的對比

谷歌TPU3.0性能提升8倍,卻遭微軟/Facebook“圍攻”

TPU2的一個pod包括4個rack,兩個CPU rack(左右兩邊),兩個TPU rack(中間兩個)。每個rack有32個computing unit (板卡),每個TPU板卡有4顆TPU芯片。因此一個pod總共有64 x 4顆TPU2芯片。每顆TPU2芯片的處理能力是45TFLOPS,因此一個pod總的處理能力是45 x 4 x 64 = 11.5 PFLOPS.

谷歌TPU3.0性能提升8倍,卻遭微軟/Facebook“圍攻”

谷歌TPU3.0性能提升8倍,卻遭微軟/Facebook“圍攻”

對比來看,TPU3的板卡仍然包括4顆芯片。但目測TPU3 pod的rack數量和板卡的密度(這個看的不是很清楚)和TPU2相比都增加了一倍。因此,一個pod中的TPU3芯片的數量應該是之前4倍。如果pod的總處理能力是TPU2的8倍,那麼TPU3單芯片的處理能力則為TPU2的2倍。

根據Google的說法,這次他們第一次在Data center採用水冷的散熱方式,這可能和芯片功耗以及板卡密度增加有關係。

Google also said this is the first time the company has had to include liquid cooling in its data centers, CEO Sundar Pichai said.

谷歌TPU3.0性能提升8倍,卻遭微軟/Facebook“圍攻”

總得來說,如上圖所描述(來自Google I/O大會的talk:Effective Machine Learning with Google TPU,可以在YouTube上搜索Google io 18 stage 8觀看),TPU3實現的超過100 PFLOPS的處理能力是來自“新的芯片架構和大規模系統”。

遭微軟、Facebook軟硬“圍攻”

眾所周知,除了谷歌,其他科技巨頭也在自主研發AI芯片,雖然從公開信息中我們可以瞭解到Facebook和亞馬遜自主研發芯片還處於早期階段,自主研發定製AI芯片的目的也還不夠清楚,但可以看到的是當數據量越來越大。

此外,不僅科技巨頭的入局,AI芯片的創業公司也開始湧現並獲得資本青睞,像Cerebras Systems、SambaNova Systems和Mythic等初創公司大多數已經籌集了超過3000萬美元,它們希望在具體的應用中通過其研發的AI芯片完成機器學習的任務,並且性價比能超越Nvidia。

不過,與谷歌的其他競爭對手也押注定製芯片(ASIC)不同,微軟認為FPGA比ASIC更靈活,並且標準Intel Stratix FPGA的性能至少可以與定製芯片相媲美。因此微軟選擇押寶FPGA,愛板網消息在5月7日開幕的微軟Build2018大會上,微軟CEO Satya Nadella發佈了Project Brainwave預覽版,並稱延遲比TPU低5倍。

微軟還稱利用Project Brainwave平臺的客戶可以使用標準的圖像識別模型處理100萬張圖片,單個圖像在1.8毫秒內就能處理,比現在的任何競爭對手的雲服務都要好。

此外,隨著Facebook越來越希望用像PyTorch這樣的框架來挑戰TensorFlow,谷歌想保持領先變得困難。在今年F8開發者大會的第二天,Facebook宣佈PyTorch 1.0beta版將在今年夏天和用戶見面,並提前展示了這款新框架的特性。

據Facebook介紹,PyTorch 1.0結合了Caffe2和ONNX模塊化、面向生產的特性,也結合了PyTorch靈活、面向研究的特性,為廣泛的AI項目提供從科研原型到生產部署的快速、無縫途徑,讓用戶可以快速實驗,通過能在強制執行模式和聲明執行模式之間無縫切花的混合前端優化性能。

需要了解的是,ONNX(開放神經網絡交換)是Facebook去年聯合多家軟硬件公司發佈的神經網絡模型轉換協議,現在新增了對蘋果的Core ML、百度PaddlePaddle、高通SNPE的支持,再加上原本支持的MXNet、Caffe2、PyTorch、TensorFlow、CNTK等框架,實現了神經網絡模型在各種主流框架之間的轉換。

因此,TPU3.0只是谷歌服務其生態保持領其先地位的第一步,硬件之上的TensorFlow同樣重要。微軟基於FPGA的Brainwave平臺以及Facebook的PyTorch 1.0軟件和硬件都與谷歌形成了競爭關係,未來谷歌能否保持領先地位還需要看其是否能做出快速的回應。


分享到:


相關文章: