再一次驗證！華為面向AI時代的智能無損數據中心網絡性能全面領先科技頭條網

2019-04-10 13:03:20 智會社

什麼樣的快遞物流會被用戶認可？毫無疑問，一個不丟包裹、沒有暴力分揀、送貨速度快的企業會成為用戶的首選。

如果我們把快遞物流所發揮的作用放到數據中心看，那麼同樣，一個零丟包、低時延、高吞吐的網絡更顯得十分重要！

眾所周知，數據中心有“三大件”：計算、存儲和網絡。存儲主要用於存儲業務應用的各類數據，計算從存儲設備獲取數據並對數據進行處理。網絡則建立了計算和存儲資源的通道，它是一條高速路、國道還是省道直接影響了數據中心的運行效率。

所以，業內的所有網絡廠商都在不遺餘力建好這條運送數據的“物流通道”。例如RDMA的出現，就是新型網絡的成功探索，它可以實現業務應用直接訪問網卡而不需經過CPU內核，從而減少時延又提升CPU利用率。

但是RDMA就是那條最佳的“物流”嗎？雖然它有相比TCP/IP的諸多優點，但也存在一個很大的缺點：對網絡丟包異常敏感。傳統以太網0.1%的丟包，會導致RDMA協議處理能力下降50%，進而使得如今越來越熱的AI訓練的計算能力下降50%。

其實現行網絡存在網絡丟包和時延的矛盾點，單獨解決某一個問題並不難，難點在於同時解決這兩個問題，如何找到這個“蹺蹺板”的平衡點需要創新的技術。

這項創新技術被華為攻克，其提出的CloudFabric智簡數據中心網絡面向AI時代的子方案AI Fabric智能無損數據中心網絡解決方案，首次解決了網絡傳輸耗時和容易丟失數據這個兩難的問題。

近日，AI Fabric所體現的創新與價值得到國際權威測試機構Tolly Group的認可，在其進行的對比測試驗證結果表明，

華為AI Fabric由CloudEngine系列數據中心交換機組網，相比業界其他主流廠商的組網方案，性能表現卓越，優於Tolly進行的對比測試驗證的思科同等款型交換機的相同組網。

具體從高性能計算、人工智能/機器學習和分佈式存儲三大典型應用場景來看，Tolly對華為AI Fabric解決⽅案進⾏了性能評估，並與思科Nexus交換機組⽹性能進⾏了對比。華為和思科的⽅案均基於RDMA over Converged Ethernet(RoCEv2)。在所有三大場景中，華為AI Fabric解決方案的性能均優於思科。

AI訓練效率對比高於27%

首先以大熱的人工智能來說，在深度學習的AI訓練模型中，為了滿足處理海量非結構化數據的要求，計算單元從CPU發展到了GPU，存儲介質從HDD機械硬盤演進到了SSD閃存盤，它們的性能均提升了100倍以上。然而，網絡通信時延卻成為整體性能提升的瓶頸。

即使逐漸興起的RDMA網絡，如同前文所說，也沒有有效解決這個難題。

Tolly測試驗證華為AI Fabric智能無損數據中心網絡可以完美地解決此問題。經過嚴苛測試，在服務器通過AI算法深度學習識別圖片的100Gbps時，AI Fabric可以完全做到0丟包，使得GPU每秒可以學習識別478個圖片，這個結果高出思科27%。

測試結果如下圖所示：

通信時延對比縮短30%

其次以高性能計算來看，由於HPC系統的MPI AllReduce模型常常導致網絡中傳輸的數據量會瞬間撐爆網絡管道。也就是網絡會週期性爆發多打一的Incast流量，瞬間超過網絡設備的承受能力，造成擁塞和丟包。

傳統以太網為了防止數據丟失，會把這些數據放入緩存隊列排隊，並反覆不斷地重新傳送，大大延長了網絡傳輸時間，進而導致計算任務完成時間也被延長。如何平衡好網絡丟包和時延成為令人頭痛的難題。

Tolly測試驗證華為AI Fabric可以很好地解決這個問題。高性能計算一般會把任務分解成8字節或者16字節的子任務。此時，AI Fabric不僅沒有丟包，而且完成一次All Reduce計算任務的時間比思科縮短了30%。測試結果如下圖所示：

分佈式存儲IOPS性能對比高於30%

最後再從分佈式存儲來看，如同前文多次表述，存儲介質從HDD到SSD，介質訪問時延縮短了100多倍，然而傳統以太網的通信時延上升到存儲處理時間的50%以上。

通信時延大，存儲訪問I/O端口的時間就長，每秒可以訪問的I/O端口數就少，存儲訪問I/O端口的IOPS性能就會受到嚴重製約，數據的實時存儲也就無法實現。如何降低網絡時延進而提升存儲IOPS性能成為極大挑戰。

Tolly測試再次驗證，AI Fabric可以很好地使存儲介質的IOPS性能發揮到極致。測試結果表明，相同的存儲介質，部署AI Fabric後存儲的IOPS性能相比思科提高了30%以上。測試結果如下圖所示：

AI Fabric為何能做到“更快、更高、更強”？

其實此前，華為AI Fabric已經通過國際權威第三方獨立測試機構EANTC的數據中心高性能測試，此次Tolly測試再一次表明，AI Fabric使數據中心“大腦”處理速度（HPC高性能計算）更快了，比以思科為代表的業界頂級水平提高了30%；“記憶”能力（存儲IOPS）更高了，對比提高30%；“認知”能力（分佈式AI訓練）更強了，對比提高27%。

如果要問，AI Fabric為何能做到“更快、更高、更強”？這就不得不說到其所具備的幾大關鍵技術：華為首次給CloudEngine數據中心交換機裝上了智慧的“芯”，並獨創了iLossless智能無損算法，實現定時採集流量特徵和動態基線智能調整，最終帶來0丟包、低時延、高吞吐的極致網絡性能。