最強AI計算機CS-1,性能超1000顆英偉達V100,谷歌TPU V3都是“渣

erebras Systems在Supercomputing 2019上宣佈了其新的CS-1系統。該公司於今年早些時候在Hot Chips推出了Wafer Scale Engine(WSE),該芯片採用了一整張300mm晶圓,將40萬個內核,1.2萬億個晶體管,46,225平方毫米的硅和18GB的片上存儲器的形式,全部集成在一個與整個晶圓一樣大的芯片中,大到令人難以置信。再加上這款芯片耗電15千瓦,內存帶寬為9 PB/s,毫無疑問,它是世界上最快的人工智能處理器。

最強AI計算機CS-1,性能超1000顆英偉達V100,谷歌TPU V3都是“渣

資料顯示,cerebras此前推出的全球最大ai芯片wse基於臺積電16nm工藝,核心面積超過46225mm2,是目前芯片面積最大的英偉達gpu的56.7倍。其內部集成了高達1.2萬億個晶體管,40萬個核心,18gigabytes的片上內存,內存帶寬9 pbyte/s,fabric帶寬100 pbit/s,

開發這種芯片是一項極其複雜的任務,但在一個合理的系統中,為所有計算出足夠電力(更不用說足夠的冷卻能力了)的芯片提供電源則完全是另一回事。Cerebras已經實現了這一壯舉,今天該公司宣佈推出世界上最快的深度學習計算系統 Cerebras CS-1 。並且公佈了系統內部的詳細設計圖。

最強AI計算機CS-1,性能超1000顆英偉達V100,谷歌TPU V3都是“渣

該系統高度為15U,大約為26英寸,因此三個系統可以裝在一個機架中。考慮到性能,這是一個非常緊湊的封裝:它包含了1,000個GPU的集群,50千瓦的功率,以匹配一個CS-1系統的性能,這是因為單個Cerebras芯片的內核數量是單個GPU的78倍以上,內存是3,000倍,內存帶寬是10,000倍,此外它還具有33000倍的帶寬(PB/s)。

最強AI計算機CS-1,性能超1000顆英偉達V100,谷歌TPU V3都是“渣

一套谷歌TPUv3 Pod功耗為100KW,但只有1/3的單個CS-1系統性能。總體而言,單個CS-1的功耗僅為其1/5,尺寸僅為其1/30,但比整個TPU POD快了三倍。

最強AI計算機CS-1,性能超1000顆英偉達V100,谷歌TPU V3都是“渣

相比之下,單個Cerebras CS-1消耗20kW,其中4kW的功率專用於冷卻子系統,例如風扇,泵和熱交換器。該系統為芯片提供15kW的功率,而剩下的1kW因電源損耗。

系統左上角有十二個100GbE連接。這些系統將與執行傳統形式的計算的大型超級計算機協同工作。然後,由超級計算機處理的數據將流入CS-1進行其他AI處理,從而利用兩種類型的計算的優勢來滿足不同的工作負載。該系統還可以通過網絡結構擴展到多個節點,這意味著CS-1系統可以在更大的組中工作。Cerebras測試了“非常大”的集群,然後可以在數據並行模式的模型並行中將其作為單個同構系統進行管理,但尚未發佈官方的可伸縮性指標。

整個Cerebras CS-1由定製組件組成。系統通過十二個電源連接從後部獲取電源。然後將其從54V降低至0.8V,然後把它送到芯片上。電源通過主板(而不是圍繞主板),然後進入處理器,不同的區域有不同數量的內核,每個內核接收自己的電源。晶圓級芯片由許多管芯(單元裸片)和管芯網絡結構捆綁在一起組成,功率傳遞比管芯/標線片閃存更為精細。這確保了整個晶片上一致的功率傳輸,並且還最小化了片上功率分配平面。

CGC通過從源語言中提取靜態圖形表示並將其轉換為大腦線性代數中間表示(CLAIR),並開始將深度學習網絡轉換為優化後的可執行文件。隨著ML框架快速發展以適應該領域的需求,這種一致的輸入抽象允許CGC迅速支持新框架和性能,而不需要對底層編譯器進行更改。

CGC使用其獨特的WSE體系結構知識,將計算和內存資源分配到圖的每個部分,然後再將它們映射到計算數組。最後,將每個網絡特有的通信路徑配置到fabric上。

由於WSE的規模巨大,神經網絡中的每一層都可以同時放置在結構上,並同時並行運算。這種實現全模型加速的方法是WSE獨有的——沒有其他設備有足夠的片上內存在單個芯片上同時容納所有層,也沒有巨大的高帶寬和低延遲通信優勢,這些只有在WSE上才可能實現。

最終的結果是一個CS-1可執行文件,根據每個神經網絡的獨特需求進行定製,這樣所有的400,000個計算內核和18GB的片上SRAM都可以最大限度地用於加速深度學習應用。


分享到:


相關文章: