AI存儲平臺的對標,NetApp推AI架構平臺叫板Pure

NetApp和Nvidia合作推出了結合AI參考架構的系統,來與Pure Storage-Nvidia AIRI系統競爭。

該系統旨在深度學習,並且與思科和NetApp的融合基礎架構FlexPod不同,它沒有品牌名稱。而且與AIRI也不同,因為它也沒有自己的硬件盒子。

根據NetApp和Nvidia提供的技術白皮書,它是針對實際深度學習用例的可擴展AI基礎設施設計:為NetApp A800全閃存存儲陣列和Nvidia DGX-1 GPU服務器系統定義參考架構(reference architecture,簡稱RA)。

白皮書地址:https://www.netapp.com/us/media/wp-7267.pdf

topline RA支持單個A800陣列(高可用性配對配置),5 x DGX-1 GPU服務器連接2個Cisco Nexus 100GE交換機。而較慢的A700全閃存陣列RA支持40GE的4個DGX-1。

A800系統使用連接到DGX-1的100GE鏈路,該設備支持RDMA作為集群互連。A800可擴展到24節點集群和74.8PB。

據悉,它具有25GB/秒的讀取帶寬和500微秒以下的延遲。

AI存儲平臺的對標,NetApp推AI架構平臺叫板Pure

NetApp Nvidia DL RA配置圖

AI存儲平臺的對標,NetApp推AI架構平臺叫板Pure

網絡端口連接圖

AI存儲平臺的對標,NetApp推AI架構平臺叫板Pure

Pure Storage和Nvidia的AIRI有一個支持4個DGX-1的FlashBlade陣列。它的FlashBlade陣列提供17GB/秒的速度,提供超過3毫秒的延遲。這與NetApp/Nvidia RA系統相比似乎較慢,但A800是NetApp最快的全閃存陣列,而Pure的FlashBlade則更多地是容量優化的閃存陣列。

像Pure的AIRI Mini一樣,NetApp Nvidia DL RA的規模從一臺DGX-1開始擴展到五臺。A800的原始容量通常為364.8TB。Pure的AIRI擁有533TB的原始閃存。

這裡有一個AIRI RA文件,其配置圖如下所示:

AI存儲平臺的對標,NetApp推AI架構平臺叫板Pure

Pure Storage與Nvidia AIRI配置圖

NetApp和Pure都運行其兩個系統的基準測試,並且都包括使用合成數據NFS和批量64的Res-152和ResNet-50。

NetApp提供了圖表和數字,而Pure只提供了圖表,使得二者的比較變得困難。不過,我們可以通過將這些圖表放在一起來做一個粗略的估計。由此產生的總體圖表並不漂亮,但確實提供了一種比較方式:

AI存儲平臺的對標,NetApp推AI架構平臺叫板Pure

NetApp和Pure Resnet性能對比

至少從這些圖表可以看出,NetApp Nvidia RA的性能優於AIRI。


分享到:


相關文章: