NVIDIA集成AI超算中心經驗,打造AI就緒型數據中心

傳統數據中心向人工智能(AI)轉型已是大勢所趨。

一方面,從智能客服、智能安防、智能風控、智能運維到智能質檢,愈加豐富的智能化應用致使存儲需求呈現指數級增長,並對數據中心的算力提出新的挑戰。

另一方面,AI 正打破傳統數據中心的管理和運營模式,完成更為精準的系統調優、故障預判等任務,替代更多人力,減少能耗和資源浪費,更大程度釋放生產力。

作為 AI 時代的基礎設施,AI 硬件正成為越來越多數據中心擴容建設的關鍵所在。尤其是能源、銀行、保險、製造、電信、醫療等重度存儲用戶,急需加速 AI 的基礎架構方案。

當超強計算力成為數據中心的剛需,NVIDIA GPU 憑藉強大的並行計算和浮點能力突破了深度學習的算力瓶頸,成為 AI 硬件的首選。

NVIDIA集成AI超算中心經驗,打造AI就緒型數據中心

數據中心 AI 轉型遭遇困局

大數據、AI 與雲計算等新興技術捲起新的浪潮,在各類數據中心中形成連鎖反應。海量數據處理任務湧入數據中心,面對人工智能應用的訓練和推理,令傳統的CPU 服務器難以招架。

深度學習算法屬於計算密集型算法,與 NVIDIA GPU 計算架構十分契合。過去 CPU 需要花數十天完成的計算任務,通用 GPU 只用幾小時就能完成,這大幅提升深度學習等並行處理數據方法的計算效率,使得以 GPU 為基礎的設備日漸成為各大數據中心進行深度學習訓練的首選。

然而,即便部署了強大的硬件設備,也不意味著數據中心的 AI 轉型計劃就萬事俱備了,還有一個關鍵問題擺在眼前——架構設計。

數據中心需要考慮的因素遠不止算力,還需兼顧網絡、存儲、電源、散熱、管理和軟件等方面問題。

硬件組合不是簡單粗暴的積木堆疊,並不是說計算節點越多,性能就會隨之線性增長。其計算性能會受制於高速互聯網絡,一旦出現數據擁堵,整機系統的效率都可能被拖累。另外,過多計算硬件堆疊,可能導致功耗過大,不利於日後的運營。

因此,數據中心必須思考如何打造了降本增效的最佳方式,將各種硬件資源協同組合,在穩定安全的狀態下,以超低延遲和高帶寬訪問數據集。

這對於缺乏 AI 部署經驗的傳統數據中心而言,無疑是個不小的挑戰。如果 DIY GPU 計算節點,不僅需要耗費人力和時間成本,還要考慮計算、存儲、交換機等各種硬件設備的集成兼容問題。

對於這一痛點,NVIDIA 提供了一個頗有吸引力的解決方案。

它通過與領先的存儲、網絡交換技術提供商合作,提供一系列 DGX POD 數據中心交付節點設計參考架構,將 NVIDIA 長期積累的超大規模數據中心 AI 部署經驗,轉化為可複製方案,無論是大中小型數據中心,均可以直接參考使用。

NVIDIA集成AI超算中心經驗,打造AI就緒型數據中心

NVIDIA AI 超級計算機構建經驗轉換

DGX POD 交付節點(Point of Delivery)是一種經優化的數據中心機架,包含多臺 DGX-1 或 DGX-2 服務器、存儲服務器和網絡交換機等最佳實踐。

這是 NVIDIA 構建大量超大規模 GPU 加速計算節點的經驗之集大成者。NVIDIA 曾建立了大型的 AI 數據中心,包含數千臺領先的 DGX 服務器加速計算節點。

今年6月,NVIDIA 宣佈推出全球速度排名第22位的超級計算機 DGX SuperPOD,為企業快速部署自動駕駛汽車項目,提供同等大小的超算無法匹敵的 AI 性能。

SATURNV 亦是 NVIDIA 基於 DGX 系統構建的 AI 超級計算機,支持自動駕駛汽車、機器人、顯卡、HPC 等多領域的 NVIDIA 內部 AI 研發。早在2016年推出之際,DGX SATURNV 就登上 Green 500 超算榜第一,被評為全球最經濟高效的超算,整體運算速度位列第28位,是最快的 AI 超算。

NVIDIA集成AI超算中心經驗,打造AI就緒型數據中心

基於使用 SATURNV 所遵循的設計原則和架構,NVIDIA 在短短三週內就打造出一套基於 NVIDIA DGX-2 配置的全新系統 DGX SuperPOD。近期 NVIDIA 藉助一套基於 DGX-2 的配置在 MLPerf 基準測試中創下六項 AI 性能記錄。

在將 DGX SATURAN 打造成所有企業都可複製的、經驗證的設計過程中,NVIDIA 經過實地檢驗積累了豐富的經驗,並將計算、網絡、存儲等多方面的最佳實踐,集中於 NVIDIA DGX POD 的設計之中。

如今,包括 Arista、思科、DDN、Dell EMC、IBM Storage、Mellanox、NetApp 和 Pure Storage 等在內的業內數據中心領導者已圍繞 DGX POD,推出了基於其各自特有技術的相關產品。

這些集成系統均為客戶提供經過經驗驗證的可靠方法,這意味著,每個企業都能量身定製完全適配自身需求的 AI 超算中心。

例如,基於 DGX POD,NetApp 推出了 NetApp ONTAP AI 融合基礎架構。其由 NVIDIA DGX-1 服務器、 NetApp 雲互聯存儲系統提供支持,是 NVIDIA 和 NetApp 聯合開發和驗證的架構。

藉助這一架構,企業可以從小規模起步進行無縫擴展,智能管理跨邊緣、核心和雲以及反向數據傳輸的完整深度學習數據管道,簡化 AI 部署。

圍繞 NVIDIA DGX POD 參考架構和 NetApp ONTAP AI,英國劍橋諮詢公司構建了一套專門的 AI 研究設施,用於訓練一個能即刻準確識別各種音樂流派的 AI “狂熱愛好者”。

藉助參考框架,其 AI 項目所帶來的對計算、存儲、網絡設施的需求均得到滿足。經過在16臺 NVIDIA GPU 上接受數百小時的音樂訓練,這位特殊的音樂愛好者,在“聽音識流派”的準確度上,甚至超越了人類和傳統編程。

NVIDIA集成AI超算中心經驗,打造AI就緒型數據中心

AI 軟件:調優 DGX 硬件,降低管理門檻

除了設計優化的 DGX 服務器、存儲服務器和網絡交換機組合 ,DGX POD 上還運行一整套適配的 NVIDIA AI 軟件堆棧,極大簡化 DGX POD 的日常操作與維護,為大規模多用戶 AI 軟件開發團隊提供高性能的深度學習訓練環境。

NVIDIA AI 軟件包括 DGX 操作系統(DGX OS)、集群管理和協調工具、工作負載調度器、來自 NVIDIA GPU Cloud (NGC) 容器註冊表的和優化容器,可以為使用者提供優化的操作體驗。

DGX POD 管理軟件可根據需要,自動創新安裝 DGX OS。DGX OS 是 NVIDIA AI 軟件堆棧的基礎,基於優化版 Ubuntu Linux 操作系統構建,並專門針對 DGX 硬件進行調優,支持各種 NVIDIA 庫和框架及 GPU 的容器進行時。

DGX POD 管理軟件層由 Kubernete 容器協調框架上運行的各項服務組成,可通過網絡(PXE)為動態主機配置協議(DHCP)和全自動 DGX OS 軟件配置提供服務。

通過使用其簡單的用戶界面,管理員可在由 Kubernetes 和 Slurm 管理的域中移動 DGX 服務器。未來 Kubernetes 增強功能預計在純 Kubernetes 環境中,支持所有 DGX POD 用例。

NVIDIA集成AI超算中心經驗,打造AI就緒型數據中心

DGX POD 上的 NVIDIA AI 軟件可藉助 Ansible 配置管理工具進行管理,白皮書中有提供其開源的軟件管理堆棧和文檔在 Github 上的鏈接。

DGX POD 一站式交付節點解決方案,不僅能加速數據中心的 AI 部署效率,同時也通過提供更強大的算力,大幅度提升數據的利用效率。

當前,很多數據中心剛剛踏入或計劃踏入 AI 的大門,而當下主流的深度學習算法必須配備專業的 AI 基礎設施。基於 NVIDIA DGX POD 的架構方案,對於快速構建大規模 AI 計算集群非常具有參考價值。隨著此類基礎架構逐漸普及,更多數據中心將得以消除設備與資本預算之間的鴻溝。

這只是 NVIDIA 打造 AI 就緒型數據中心宏圖的重要版面之一,利用 DGX-1、DGX-2 服務器和NVIDIA GPU 大規模計算架構的發展進步,NVIDIA 正將機器學習、深度學習和高性能計算(HPC)擴展到更多的數據中心,為金融、能源、製造、電信、醫療、科學計算等更多行業的生產力提升提供動力引擎。

中科雲達(北京)科技有限公司成立於2016年,公司位於北京市國際信息產業基地。公司一直致力於為廣大用戶提供GPU高性能計算、深度學習、虛擬化仿真、定製化服務器、工作站、存儲等軟硬件整體解決方案,並與多家知名技術型領先廠商如超微(Supermicro)、英特爾(Intel)、華碩(ASUS)、英偉達(NVIDIA)等建立了長期的合作關係。


分享到:


相關文章: