再一次驗證!華為面向AI時代的智能無損數據中心網絡性能全面領先

什麼樣的快遞物流會被用戶認可?毫無疑問,一個不丟包裹、沒有暴力分揀、送貨速度快的企業會成為用戶的首選。

如果我們把快遞物流所發揮的作用放到數據中心看,那麼同樣,一個零丟包、低時延、高吞吐的網絡更顯得十分重要!

眾所周知,數據中心有“三大件”:計算、存儲和網絡。存儲主要用於存儲業務應用的各類數據,計算從存儲設備獲取數據並對數據進行處理。網絡則建立了計算和存儲資源的通道,它是一條高速路、國道還是省道直接影響了數據中心的運行效率


再一次驗證!華為面向AI時代的智能無損數據中心網絡性能全面領先

所以,業內的所有網絡廠商都在不遺餘力建好這條運送數據的“物流通道”。例如RDMA的出現,就是新型網絡的成功探索,它可以實現業務應用直接訪問網卡而不需經過CPU內核,從而減少時延又提升CPU利用率。

但是RDMA就是那條最佳的“物流”嗎?雖然它有相比TCP/IP的諸多優點,但也存在一個很大的缺點:對網絡丟包異常敏感。傳統以太網0.1%的丟包,會導致RDMA協議處理能力下降50%,進而使得如今越來越熱的AI訓練的計算能力下降50%。

其實現行網絡存在網絡丟包和時延的矛盾點,單獨解決某一個問題並不難,難點在於同時解決這兩個問題,如何找到這個“蹺蹺板”的平衡點需要創新的技術。

這項創新技術被華為攻克,其提出的CloudFabric智簡數據中心網絡面向AI時代的子方案AI Fabric智能無損數據中心網絡解決方案,首次解決了網絡傳輸耗時和容易丟失數據這個兩難的問題

近日,AI Fabric所體現的創新與價值得到國際權威測試機構Tolly Group的認可,在其進行的對比測試驗證結果表明,

華為AI Fabric由CloudEngine系列數據中心交換機組網,相比業界其他主流廠商的組網方案,性能表現卓越,優於Tolly進行的對比測試驗證的思科同等款型交換機的相同組網

具體從高性能計算、人工智能/機器學習和分佈式存儲三大典型應用場景來看,Tolly對華為AI Fabric解決⽅案進⾏了性能評估,並與思科Nexus交換機組⽹性能進⾏了對比。華為和思科的⽅案均基於RDMA over Converged Ethernet(RoCEv2)。在所有三大場景中,華為AI Fabric解決方案的性能均優於思科。

AI訓練效率對比高於27%

首先以大熱的人工智能來說,在深度學習的AI訓練模型中,為了滿足處理海量非結構化數據的要求,計算單元從CPU發展到了GPU,存儲介質從HDD機械硬盤演進到了SSD閃存盤,它們的性能均提升了100倍以上。然而,網絡通信時延卻成為整體性能提升的瓶頸。

即使逐漸興起的RDMA網絡,如同前文所說,也沒有有效解決這個難題。

Tolly測試驗證華為AI Fabric智能無損數據中心網絡可以完美地解決此問題。經過嚴苛測試,在服務器通過AI算法深度學習識別圖片的100Gbps時,AI Fabric可以完全做到0丟包,使得GPU每秒可以學習識別478個圖片,這個結果高出思科27%。

測試結果如下圖所示:


再一次驗證!華為面向AI時代的智能無損數據中心網絡性能全面領先


通信時延對比縮短30%

其次以高性能計算來看,由於HPC系統的MPI AllReduce模型常常導致網絡中傳輸的數據量會瞬間撐爆網絡管道。也就是網絡會週期性爆發多打一的Incast流量,瞬間超過網絡設備的承受能力,造成擁塞和丟包。

傳統以太網為了防止數據丟失,會把這些數據放入緩存隊列排隊,並反覆不斷地重新傳送,大大延長了網絡傳輸時間,進而導致計算任務完成時間也被延長。如何平衡好網絡丟包和時延成為令人頭痛的難題。

Tolly測試驗證華為AI Fabric可以很好地解決這個問題。高性能計算一般會把任務分解成8字節或者16字節的子任務。此時,AI Fabric不僅沒有丟包,而且完成一次All Reduce計算任務的時間比思科縮短了30%。測試結果如下圖所示:


再一次驗證!華為面向AI時代的智能無損數據中心網絡性能全面領先


分佈式存儲IOPS性能對比高於30%

最後再從分佈式存儲來看,如同前文多次表述,存儲介質從HDD到SSD,介質訪問時延縮短了100多倍,然而傳統以太網的通信時延上升到存儲處理時間的50%以上。

通信時延大,存儲訪問I/O端口的時間就長,每秒可以訪問的I/O端口數就少,存儲訪問I/O端口的IOPS性能就會受到嚴重製約,數據的實時存儲也就無法實現。如何降低網絡時延進而提升存儲IOPS性能成為極大挑戰。

Tolly測試再次驗證,AI Fabric可以很好地使存儲介質的IOPS性能發揮到極致。測試結果表明,相同的存儲介質,部署AI Fabric後存儲的IOPS性能相比思科提高了30%以上。測試結果如下圖所示:


再一次驗證!華為面向AI時代的智能無損數據中心網絡性能全面領先


AI Fabric為何能做到“更快、更高、更強”?

其實此前,華為AI Fabric已經通過國際權威第三方獨立測試機構EANTC的數據中心高性能測試,此次Tolly測試再一次表明,AI Fabric使數據中心“大腦”處理速度(HPC高性能計算)更快了,比以思科為代表的業界頂級水平提高了30%;“記憶”能力(存儲IOPS)更高了,對比提高30%;“認知”能力(分佈式AI訓練)更強了,對比提高27%。

如果要問,AI Fabric為何能做到“更快、更高、更強”?這就不得不說到其所具備的幾大關鍵技術:華為首次給CloudEngine數據中心交換機裝上了智慧的“芯”,並獨創了iLossless智能無損算法,實現定時採集流量特徵和動態基線智能調整,最終帶來0丟包、低時延、高吞吐的極致網絡性能。


再一次驗證!華為面向AI時代的智能無損數據中心網絡性能全面領先


無論是硬件上的“芯”升級,還是軟件算法上的突破,這些技術創新得以讓華為AI Fabric智能無損數據中心網絡解決方案性能表現卓越。

並且,華為AI Fabric在互聯網和金融領域已有了成功實踐。它讓某互聯網巨頭無人駕駛應用的計算效率提升了40%,讓招行存儲的IOPS性能提高了20%。以數據說話,可以想見AI Fabric一定會吸引越來越多的企業選用。

新的機遇,AI Fabric正在引領數據中心邁向智能無損網絡,推動企業加速邁向AI時代!


分享到:


相關文章: