NetApp和Nvidia合作推出了結合AI參考架構的系統,來與Pure Storage-Nvidia AIRI系統競爭。
該系統旨在深度學習,並且與思科和NetApp的融合基礎架構FlexPod不同,它沒有品牌名稱。而且與AIRI也不同,因為它也沒有自己的硬件盒子。
根據NetApp和Nvidia提供的技術白皮書,它是針對實際深度學習用例的可擴展AI基礎設施設計:為NetApp A800全閃存存儲陣列和Nvidia DGX-1 GPU服務器系統定義參考架構(reference architecture,簡稱RA)。
白皮書地址:https://www.netapp.com/us/media/wp-7267.pdf
topline RA支持單個A800陣列(高可用性配對配置),5 x DGX-1 GPU服務器連接2個Cisco Nexus 100GE交換機。而較慢的A700全閃存陣列RA支持40GE的4個DGX-1。
A800系統使用連接到DGX-1的100GE鏈路,該設備支持RDMA作為集群互連。A800可擴展到24節點集群和74.8PB。
據悉,它具有25GB/秒的讀取帶寬和500微秒以下的延遲。
Pure Storage和Nvidia的AIRI有一個支持4個DGX-1的FlashBlade陣列。它的FlashBlade陣列提供17GB/秒的速度,提供超過3毫秒的延遲。這與NetApp/Nvidia RA系統相比似乎較慢,但A800是NetApp最快的全閃存陣列,而Pure的FlashBlade則更多地是容量優化的閃存陣列。
像Pure的AIRI Mini一樣,NetApp Nvidia DL RA的規模從一臺DGX-1開始擴展到五臺。A800的原始容量通常為364.8TB。Pure的AIRI擁有533TB的原始閃存。
這裡有一個AIRI RA文件,其配置圖如下所示:
NetApp和Pure都運行其兩個系統的基準測試,並且都包括使用合成數據NFS和批量64的Res-152和ResNet-50。
NetApp提供了圖表和數字,而Pure只提供了圖表,使得二者的比較變得困難。不過,我們可以通過將這些圖表放在一起來做一個粗略的估計。由此產生的總體圖表並不漂亮,但確實提供了一種比較方式:
至少從這些圖表可以看出,NetApp Nvidia RA的性能優於AIRI。
閱讀更多 雲智時代 的文章