七年磨一劍,華為如何定義 AI 時代的數據中心網絡?

七年前,華為以一場主題為「雲引擎、承未來」的發佈會,發佈了面向雲計算時代的數據中心核心交換機 CloudEngine 12800。這個產品不僅滿足了企業數據中心業務彈性伸縮與自動化部署的需求,也造就了一個年複合增長率 82%、連續 6 年增速全球第一的「爆款產品」。

七年後的 2019 年,當人工智能的浪潮勢不可擋席捲而來,企業數據中心網絡何去何從、如何面對 AI 帶來的機遇和挑戰以及下一代數據中心網絡應該是個什麼樣子......作為全球數據中心交換機領域的重要玩家,這一次華為也給出了他們的答案。

在上週名為「網絡新引擎,AI 贏未來」的大會上,華為正式發佈了面向 AI 時代的數據中心交互機 CloudEngine 16800。正如華為網絡產品線總裁胡克文對這款產品的定義:「華為率先將AI技術引入數據中心交換機,引領數據中心網絡從雲時代邁入 AI 時代」。

七年磨一劍,華為如何定義 AI 時代的數據中心網絡?

作為業界首款面向AI時代的數據中心交換機 CloudEngine 16800,也定義了 AI 時代數據中心交換機的三大特徵。那麼,AI 到底給企業數據中心網絡帶來哪些壓力和挑戰?華為又是如何思考面向 AI 時代的數據中心網絡?

<strong>01 AI 對於數據中心網絡的新要求

企業的數據中心是企業業務和技術創新的重要載體。這其中,交換機通過對業務識別與控制,實現網絡的快速響應與零丟包,從而保證業務的連續性。

而隨著企業步入 AI 時代,數據中心網絡也迎來一系列新挑戰。

首先,為了更好地應用機器學習以及深度學習算法,必須提升數據中心的數據處理效率。

一方面,存儲介質演進到閃存盤,時延降低了不止100倍。計算通過採用 GPU 以及其他專用的 AI 芯片,可以將處理數據的能力提升了100倍以上。

但另一方面,網絡處理協議由 TCP/IP 演進到 RDMA(Remote Direct Memory Access的) 後,網絡通信時延反而成為AI 算法部署的關鍵短板,也嚴重製約了 AI 算力的完整輸出。

七年磨一劍,華為如何定義 AI 時代的數據中心網絡?

第二,作為業務流量的匯聚點, 數據中心所承載的數據流量越來越大。

而隨著企業AI 等新型業務的不斷出現,也驅動了數據中服務器從 10G 到 25G 甚至 100G 的切換,這就必然要求交換機支持 400G接口,這是應對 AI 是到數據流量的必然要求。

第三,在數據中心內部計算和存儲正在融合的大背景下,企業數據中心服務器集群規模越來越大。

與此同時,快速增長的數據中心分析流量、毫秒級的信息上報機制,不斷考驗著網絡運維的處理能力,比如當問題出現時,如何快速定位問題所在。這些需求也迫使企業投入更多人力、財力到運維團隊,極大增加了企業成本。

上述三點構成了 AI 時代企業數據中心網絡所面臨的困境。根據華為 GIV 2025(Global Industry Vision)的預測,到 2025年,新增數據量達到 180ZB,95%的非結構化數據(語音/視頻等)依賴AI處理,企業對AI的採用率將達到86%。

這也意味著,隨著越來越多的企業將利用AI助力決策、重塑商業模式與生態系統、重建客戶體驗,數據中心從雲時代邁向AI時代是一個必然趨勢。

<strong>02 華為定義了 AI 時代數據中心網絡的三大特徵

在華為看來,AI 時代數據中心交換機應有三大特徵:

1. AI 芯片加持

2. 配備高密度 400 G 接口

3. 網絡運維自動化

那麼,具備上述三大特徵的 CloudEngine 16800,能否有效解決前文提到的 AI 時代數據中心網絡難題呢?

首先,<strong>通過 AI 芯片的加持,CloudEngine 16800 能給有效實現對網絡需求的自動調優,實現 0 丟包低時延高吞吐的無損數據中心網絡。

七年磨一劍,華為如何定義 AI 時代的數據中心網絡?

一方面是單流局部調優,類似於物理世界裡的城市十字路口智能紅綠燈調節,根據本路口的行人和車輛情況動態調整紅綠燈時間,從而使得該十字路口通行效率最高。

另一方面則是整網全局調優,類似於物理世界裡的城市大腦調節機制,通過分析所有道路的行人和車輛情況,動態關聯的調整的所有紅綠燈,使得整個城市的道路通行情況最優。

值得一提的是,由於配備了 AI 芯片,其獨創的iLossLess 智能無損交換算法,能夠對全網流量進行實時的學習訓練,並根據不同業務流量模型的特點動態設置最優的網絡參數,更精準地控制流量,這樣的智能無損數據中心網絡克服傳統以太網丟包導致的算力損失,將AI算力從 50% 提升到 100%,數據存儲 IOPS(Input/Output Operations Per Second)性能提升30%。

第二,<strong>CloudEngine 16800 支持10G→40G→100G→400G端口平滑演進能力,能夠提供業界最高密度的單槽48個/整機768個400GE端口,交換容量是業界的五倍。

要實現如此超高密度及其演進能力,還需要在板材、工藝、散熱,供電等多方面都進行了革命性的技術改進和創新。

以工藝為例,傳統的電路板由於採用的普通銅箔材料及製造工藝問題,當信號傳輸速率提升的時候,損耗和高頻干擾非常嚴重,存在速率極限。 華為採用新型亞微米無損材料及高分子鍵合技術的製作工藝,將電信號的傳輸效率提升30%,滿足100G到400G全生命週期兼容和能力演進。

而在能效和散熱方面,此次 CloudEngine 16800 也有諸多創新。利用雙路輸入智能切換的電源模塊,可以讓電源空間節省50%;採用獨有的碳納米導熱墊和VC相變散熱技術,散熱效率提升4倍;獨有的磁導率馬達,靜音導流環噪音降低6dB。

第三,如何減輕智能運維平臺的壓力呢?答案也不負責,只需在最靠近服務器,最靠近數據的網絡設備裡具備智能分析和決策功能即可。

<strong>CloudEngine 16800 的 AI 芯片,使得交換機具備本地推理和實時快速決策的能力。而通過本地智能結合集中的FabricInsight網絡分析器提供分佈式 AI 運維架構,可實現秒級故障識別和分鐘級故障自動定位,讓網絡運維實現自動化。

<strong>03 寫在最後:助力企業贏在 AI 時代

自 2018 年開始,整個行業對於 AI 已經有了明確的共識:AI 不是未來,而是現在。

這是企業的機會,也是華為的機會。

2018年,在華為的全連接大會上,華為將人工智能定位為新的通用技術,併發布了人工智能發展戰略,全面將人工智能技術引入到智能終端、雲和網絡等各個領域。此次發佈的業界首款面向AI時代數據中心交換機CloudEngine 16800,也正是其在網絡領域持續踐行AI戰略的體現。

自 2012 年華為進入數據中心網絡市場以來,已經服務了全球 6400+ 客戶,七年前面向雲時代的 CloudEngine 12800,已幫助全球眾多企業實現了雲時代的業務轉型與創新。

如今,CloudEngine 16800 成為華為賦能各行各業數據中心網絡的新武器,內嵌 AI 芯片、單槽48 x 400GE高密端口、自動駕駛網絡等三大特徵,也將幫助更多客戶加速智能化轉型,實現普惠AI。最終的落腳點,就是構建一個萬物互聯的智能世界。(完)


分享到:


相關文章: