最强AI计算机CS-1,性能超1000颗英伟达V100,谷歌TPU V3都是“渣

erebras Systems在Supercomputing 2019上宣布了其新的CS-1系统。该公司于今年早些时候在Hot Chips推出了Wafer Scale Engine(WSE),该芯片采用了一整张300mm晶圆,将40万个内核,1.2万亿个晶体管,46,225平方毫米的硅和18GB的片上存储器的形式,全部集成在一个与整个晶圆一样大的芯片中,大到令人难以置信。再加上这款芯片耗电15千瓦,内存带宽为9 PB/s,毫无疑问,它是世界上最快的人工智能处理器。

最强AI计算机CS-1,性能超1000颗英伟达V100,谷歌TPU V3都是“渣

资料显示,cerebras此前推出的全球最大ai芯片wse基于台积电16nm工艺,核心面积超过46225mm2,是目前芯片面积最大的英伟达gpu的56.7倍。其内部集成了高达1.2万亿个晶体管,40万个核心,18gigabytes的片上内存,内存带宽9 pbyte/s,fabric带宽100 pbit/s,

开发这种芯片是一项极其复杂的任务,但在一个合理的系统中,为所有计算出足够电力(更不用说足够的冷却能力了)的芯片提供电源则完全是另一回事。Cerebras已经实现了这一壮举,今天该公司宣布推出世界上最快的深度学习计算系统 Cerebras CS-1 。并且公布了系统内部的详细设计图。

最强AI计算机CS-1,性能超1000颗英伟达V100,谷歌TPU V3都是“渣

该系统高度为15U,大约为26英寸,因此三个系统可以装在一个机架中。考虑到性能,这是一个非常紧凑的封装:它包含了1,000个GPU的集群,50千瓦的功率,以匹配一个CS-1系统的性能,这是因为单个Cerebras芯片的内核数量是单个GPU的78倍以上,内存是3,000倍,内存带宽是10,000倍,此外它还具有33000倍的带宽(PB/s)。

最强AI计算机CS-1,性能超1000颗英伟达V100,谷歌TPU V3都是“渣

一套谷歌TPUv3 Pod功耗为100KW,但只有1/3的单个CS-1系统性能。总体而言,单个CS-1的功耗仅为其1/5,尺寸仅为其1/30,但比整个TPU POD快了三倍。

最强AI计算机CS-1,性能超1000颗英伟达V100,谷歌TPU V3都是“渣

相比之下,单个Cerebras CS-1消耗20kW,其中4kW的功率专用于冷却子系统,例如风扇,泵和热交换器。该系统为芯片提供15kW的功率,而剩下的1kW因电源损耗。

系统左上角有十二个100GbE连接。这些系统将与执行传统形式的计算的大型超级计算机协同工作。然后,由超级计算机处理的数据将流入CS-1进行其他AI处理,从而利用两种类型的计算的优势来满足不同的工作负载。该系统还可以通过网络结构扩展到多个节点,这意味着CS-1系统可以在更大的组中工作。Cerebras测试了“非常大”的集群,然后可以在数据并行模式的模型并行中将其作为单个同构系统进行管理,但尚未发布官方的可伸缩性指标。

整个Cerebras CS-1由定制组件组成。系统通过十二个电源连接从后部获取电源。然后将其从54V降低至0.8V,然后把它送到芯片上。电源通过主板(而不是围绕主板),然后进入处理器,不同的区域有不同数量的内核,每个内核接收自己的电源。晶圆级芯片由许多管芯(单元裸片)和管芯网络结构捆绑在一起组成,功率传递比管芯/标线片闪存更为精细。这确保了整个晶片上一致的功率传输,并且还最小化了片上功率分配平面。

CGC通过从源语言中提取静态图形表示并将其转换为大脑线性代数中间表示(CLAIR),并开始将深度学习网络转换为优化后的可执行文件。随着ML框架快速发展以适应该领域的需求,这种一致的输入抽象允许CGC迅速支持新框架和性能,而不需要对底层编译器进行更改。

CGC使用其独特的WSE体系结构知识,将计算和内存资源分配到图的每个部分,然后再将它们映射到计算数组。最后,将每个网络特有的通信路径配置到fabric上。

由于WSE的规模巨大,神经网络中的每一层都可以同时放置在结构上,并同时并行运算。这种实现全模型加速的方法是WSE独有的——没有其他设备有足够的片上内存在单个芯片上同时容纳所有层,也没有巨大的高带宽和低延迟通信优势,这些只有在WSE上才可能实现。

最终的结果是一个CS-1可执行文件,根据每个神经网络的独特需求进行定制,这样所有的400,000个计算内核和18GB的片上SRAM都可以最大限度地用于加速深度学习应用。


分享到:


相關文章: