破局數據中心多節點擴展挑戰!NVIDIA提出三類參考架構

破局數據中心多節點擴展挑戰!NVIDIA提出三類參考架構

人工智能(AI)和深度學習正成為越來越多企業的核心競爭力。隨著智能化應用的高速普及,很多傳統數據中心都面臨著眾多難題。單個 GPU 或服務器難以做到快速訪問大量計算資源,但要跨多個節點擴展應用程序,又面臨存儲、網絡等不同系統組件帶來的挑戰。

對此,NVIDIA 打造了超強深度學習訓練性能的 DGX-1 AI 超級計算機,融合多種有助於多節點擴展的系統技術,並基於實踐經驗,總結出構建多節點系統的建議和多種參考架構設計方案,可協助 IT 管理員以更高的成本效益構建高性能多節點系統。

本期的智能內參,我們推薦《基於 NVIDIA DGX-1 構建多節點環境的注意事項》白皮書,不僅解析提高多節點可擴展性面臨的瓶頸,還針對不同的節點數量需求,提出三種在多節點環境中高效配置 DGX-1 架構的解決方案。如需查閱此白皮書,可直接點擊:下載,還點擊:,申請測試 NVIDIA DGX-1 AI 超級計算機。

以下為智能內參整理呈現的乾貨:

一、影響多節點可擴展性的關鍵瓶頸

要實現良好可擴展性,需確保應用程序在多節點上協調運行多個進程,而任何系統組件存在的瓶頸問題都會影響其有效擴展的能力,這給傳統數據中心帶來重重困難。

比如在通信方面,如果向節點添加更多 GPU,應用程序線程間的通信成本會導致訓練性能明顯下降。在標準服務器中,GPU 間的通信受 PCIe 總線限制,不同服務器上的 GPU 通信又受典型數據中心網絡以太網的影響。對通信模式作出不明確假定也會導致相同和不同系統上的 GPU 間出現不必要的流量。

海量數據處理和管理對讀取緩存也提出了新的需求,要求有巨大讀取帶寬通路,同時能在訓練期間多次重複訪問相同數據。

軟件也是制約系統可擴展性的一個關鍵要素。並非所有深度學習框架都能保持一致的高效擴展,因此必須選擇適當的框架和版本,以及合適的作業調度軟件,以確保其可擴展性遠高於支持硬件。

除了上述因素外,本白皮書也分析了關於整體集群、機架設計空間、數據中心功率密度等其他方面的考量。基於 NVIDIA 與客戶長期的交流,NVIDIA 也探討了一些應對這些挑戰的成熟解決方案。

二、融合大量多節點擴展系統技術的DGX-1

NVIDIA 提供的參考方案基於 NVIDIA DGX-1 超級計算機,這是專為深度學習打造的集成系統,旨在最大限度提升深度神經網絡的訓練速度。有關 NVIDIA DGX-1 的核心技術和性能介紹,可參閱《性能媲美250臺CPU服務器,英偉達DGX-1的實力有多彪悍?》

DGX-1 為何能最大限度提高多 GPU 和多節點性能?這源自 DGX-1 採用的多種新技術。

NVIDIA 在 DGX-1 的節點內 GPU 之間,採用超高帶寬通路 NVLink,相比基於 PCIe Gen3 的傳統互連,速度可提升 10 倍。此外,NVIDIA還為每個系統配備 4 個 InfinBand 100 Gb/秒擴展數據速率(EDR)端口,並搭配軟件技術提供 GPU 間的優化通信方法。

破局數據中心多節點擴展挑戰!NVIDIA提出三類參考架構

▲DGX-1 採用 8-GPU 的混合立體互聯網絡拓撲

為了幫助數據中心工作人員進一步節省構建 AI 基礎設施所需的時間和試錯成本,NVIDIA 通過與領先的存儲、網絡交換技術提供商合作,提出一種經優化的數據中心機架—— DGX POD 交付節點(Point of Delivery)。

基於此,NVIDIA 將其超大規模數據中心 AI 部署經驗轉化為可複製方案,將包含多臺 DGX-1、存儲服務器、網絡交換機等設備的最佳實踐方案,融入一系列 DGX POD 數據中心交付節點設計參考架構中。

智東西曾在《NVIDIA集成AI超算中心經驗,打造AI就緒型數據中心》一文中對《NVIDIA DGX POD 數據中心參考設計》白皮書進行亮點解讀,並附以白皮書下載鏈接。

破局數據中心多節點擴展挑戰!NVIDIA提出三類參考架構

▲ DGX POD 參考架構正面圖

陸續有 NVIDIA 的合作伙伴已經開始基於 DGX POD 推出具體的配置方案。例如, NetApp 推出的 NetApp ONTAP AI 解決方案。

三、NVIDIA建議的DGX-1多節點參考架構

在提供 DGX POD 一站式交付節點解決方案前,NVIDIA 曾打造了由 125 個 DGX-1 節點組成的 AI 超級計算機 SATURNV。

SATURNV 託管了 1000 個 NVIDIA Tesla GPU,計算能力媲美 3 萬多臺 x86 服務器,一經推出就登上了 Green 500 超算榜第一名,被稱為全球最經濟高效的超算,同時它也是最快的 AI 超算。

在構建 SATURNV 的過程中,NVIDIA 積累了橫向擴展 DGX-1 架構的指導基礎,其中採用的一些技術及方案均可供 IT 架構師參考。

比如,為了能更快在跨集群延伸的節點間傳遞數據,NVIDIA 開發了一種高性能雙層 InfiniBand 交換架構,並使用 GPUDirect RDMA 技術,最大限度降低延遲並提高集群節點間的帶寬。NVIDIA 也在存儲等方面提供了一些兼顧性能和成本效益、且簡單可執行的建議。

針對不同環境的性能和算能需求,NVIDIA 提供了三種可能的配置方法,上限服務器節點數量分別為 12、 36、144,以確保在相應節點數量的環境可實現無限制的深度神經網絡訓練性能。

破局數據中心多節點擴展挑戰!NVIDIA提出三類參考架構

▲NVIDIA DGX-1 深度學習數據中心參考架構(144個服務器)

NVIDIA 充分考慮到每臺機架的計算、功率、散熱密度等因素,給予的具體建議包括機架、網絡、計算、存儲、管理等材料的數量和選型。

IT 團隊可根據必須考慮的具體目標和成本目標,參考這些配置,然後定製出最符合自身需求的多節點擴展系統。

與此同時,NVIDIA 也與 ISV 合作伙伴緊密協作,提供協助管理 DGX-1 多節點集群的解決方案。這些方案在管理調度 GPU 資源、優化提高吞吐量以及恢復能力方面,可提供非常有效的幫助。

智東西認為,如果能借鑑經過檢驗的成熟參考架構,IT 架構師、管理員及管理者在面對數據中心的 AI 轉型需求時更加遊刃有餘,幫助團隊及組織更快地實現深度學習工作負載的多節點擴展,在大幅提升訓練性能的同時,節省部署時間、資本支出及IT管理運營支出等成本。

如需查閱此白皮書《基於NVIDIA DGX-1構建多節點環境的注意事項》,可直接點擊:

下載,還可點解:申請測試 NVIDIA DGX-1 AI 超級計算機。


分享到:


相關文章: