Hardy(晗狄) 架構師技術聯盟
如今大數據、雲計算技術的發展已經自身疲憊了。然而跨界競爭和技術融合迫使我們不斷換血和補充能量來適應一次次變革。在人工智能、虛擬現實、物聯網等技術熱潮過後,能預測到的下一個技術熱點會是什麼,高性能計算(HPC)?是的,HPC應該再適合不過了。
為什麼這麼說呢?因為前期作者已經做了大量分析,並在項目實踐和總結中得到了答案,分析成果精要都已經通過發文的形式分享給小夥伴們。按照前期的慣例,今天也是把HPC行業趨勢、產品和技術的分析梳理成“高性能計算(HPC)技術、方案和行業全面解析”電子書,通過的收取少量費用的方式提供給真正需要的小夥伴參閱,詳情參閱原文鏈接,以下為目錄介紹。
回顧歷史,傳統HPC主要聚焦在仿真、物理化學、生命科學、渲染、勘探和氣象等六大場景,上層HPC集群化軟件、生態和解決方案還是比較固定。
根據HPC應用的目標市場可分為HPC商業市場和HPC科研市場。但隨著大數據、雲計算和技術發展和行業融合,綜合技術和行業趨勢,HPC行業劃分方法也發生了變化,目前主要分為傳統HPC(以上述的六大場景為主),HPDA高性能數據分析、HPC Anywhere和HyperScale四大類。
其中,在HPC Anywhere中實現了HPC和雲的結合,例如Panzura、Ctera、Avere和Nasumi等集群文件網關存儲廠商,他們提供一個高速的本地分佈式NAS系統,用於對接AWS、Azure等這樣的公有云對象存儲和一些低速的NAS產品,通過這些網關提供了一個緩衝層,可以設置策略讓數據在網關和其它存儲之間流動,通過NAS或Object存儲直接實現與集群網關,甚至公有云連接和數據流動。
隨著閃存技術的成熟,HPC的傳統的3層技術架構(即計算節點內存、並行文件系統和歸檔存儲)也發生了變化。在HPC系統中,並行文件系統(pFS)對HPC性能影響最大,在某種意義上決定整個HPC存儲性能。傳統HPC架構應對超大規模HPC集群計算節點同時Checking Point需求時,顯得力不從心,那就需要在pFS之上多加一層高速大容量(相對於Memory)的Cache(Burst Buffer)。
我個人認為Burst Buffer技術可能是一個技術過度產品,類似改善系統性能的Hybird存儲,不過,在目前SSD還相當貴的狀況下,Burst Buffer卻能夠很好的匹配超大型HPC場景極致性能需求。在性能和容量空間比在20MB/TB至200MB/TB之間,Burst Buffer可以說是非常適合的(Burst Buffer提供的SSD承載80%以上的性能,容量由傳統存儲HDD提供),通過簡單的配置調整,不但不會出現容量或性能超配,而且還能發揮出SSD的價值。
回首HPC並行文件系統,屈指可數,主流的有Lustre、GPFS、BeeGFS,當然Glustre、Ceph和企業NAS也會在HPC中出現,但還不是主流。
在HPC行業,有個業界一直被推崇的做法可以借鑑,那就是開源生態和的重要性。從Linux,OpenStack,Ceph到Lustre和BeeGFS等。他們的成功說明開放的魅力強大,參與者越多產品才會越穩定,客戶才會認同。擁抱開源,基於自己的優勢和理解定製化,走出一條自己的路。DDN、Seagate還有很多HPC方案供應商都是這樣從開源和合作中佔據主要的HPC市場份額。
談到HPC不可避免的會談到NAS或pFS,那麼HPC為什麼就一定要pFS呢?
因為計算軟件,配置數據需要在各個計算節點共享,需要多併發訪問,計算的臨時文件、中間、結果文件需要集中處理。
在計算集群形成初期,系統中並沒有複雜的存儲系統存在,甚至沒有統一存儲的概念,那時每臺計算節點把自己所計算出的數據先暫時寫到自己的本地硬盤上(Cache),最終由主節點進行所有數據的回收,至主節點所掛載的相對大的空間中(其實這就是後來HPC存儲的雛形),再進行後續處理(分析、共享、可視化、備份與恢復)。
本地存儲引入的問題:計算任務在計算集群中被分割為若干個子任務。計算過程中,某個計算節點的輸入數據可能存放在另外的節點上,引入的問題。
1、各節點的數據會二次進出本地硬盤,各節點間的數據傳輸也會造成多餘的網絡風暴,這種做法無疑會造成計算效率的下降;
2、應用程序代碼編寫過程中,無法預計所要數據在哪個節點上,都造成麻煩與效率的低下。
因此後續的程序編寫中,會讓所有的節點都認到一塊區域,將所有的臨時性數據和最終數據都寫到這裡,即統一命名空間,因為所有計算節點都可以看到這塊同一個名字的數據存儲區域,表現在計算節點的OS中即為看到同一個名字的目錄。
HPC應用軟件,例如Paradigm、3Ds Max等,在配置計算模型的存儲指針時,會發現要求指向同一個區域,即統一的存儲空間,而且有許多軟件在這個參數的設置上是不能修改的。
某計算節點自己的中間數據,可能會存放在自己內部的存儲上。如果使用SAN存儲,就必須使用SAN共享軟件(如StoreNext),保證數據讀寫的一致性。
DDN是在Burst Buffer上發力最猛的HPC解決方案提供商,但是Burst Buffer目前還沒有一統天下(未來可能全閃存會一統HPC天下),Panasas和Seagate是兩家專注HPC行業的專業存儲廠商,他們在Burst Buffer上沒有發力,但是他們在NL_SAS磁盤和HPC專有存儲上卻一直不懈努力。
Panasas的技術從我一開始藉助HPC就吸引著我,ActiveStor 8、9、11、12採用數據控制分離,磁盤內置控制器可以把HDD磁盤性能發揮極致,遺憾的是不知為何,最近幾年Panasas一直淡出在我們視野。
至於Seagate,更是把密度和HDD結合的非常完美的典範,ClusterStor可以在5U空間提供84個磁盤容量和16GB/s性能,從最新的宣傳來看,性能已經翻番了。他們雖沒有采用SSD,但成了完全可以玩轉HPC的例子。
面對未來高性能、大帶寬應用和業務,網絡有哪些要求呢?目前主流的就是100GE以太網、Omni-Path和InfiniBand。
站在市場角度,我更希望Mellanox的InfiniBand和Intel的Omni-Path技術都能找到適合發展的市場空間,分別發揮出自己不同的優勢,希望Intel收購了Qlogic的InfiniBand業務後又基於True Scale Fabric另闢新徑是正確選擇。
HPC系統能力通過哪些基準來衡量呢?Top500和Green500的排名是衡量HPC系統地位的重要指標。
中國“神威-太湖之光”超級計算機(無錫)和“天河二號”超算系統(廣州)多年來蟬聯Top500榜首,雖然成績優異,但其在Green500的排名還有很大的提供空間。在未來迎接HPDA、雲化和HPC HyperScale趨勢,只有計算性能和綠色節能兼備才能更好的把握雲計算和大數據下HPC的主動權和話語權。
關於HPC系統能力BenchMark排名,除了TOP500、Green500和HPCG之外,還有Graph500排名和Green Graph 500排名等,Green Graph 500使用與Green500相同的性能指標,但它是根據每瓦特性能排名,即採用Green 500測試模型測試但配合Top500(HPL)使用每瓦特性能排序。
隨著時間的推移,應用程序更復雜計算的需求已變得越來越普遍,TOP500創始人認為Top500列表採用的Linpack基準性能已經過時,大家也意識到單看CPU性能的弊端,開始使用HPCG(The High Performance Conjugate Gradients)性能來全面衡量超算性能。
內容很豐富,但文章篇幅有限,分析內容到此為止。今天也是把HPC行業趨勢、產品和技術的分析梳理成“高性能計算(HPC)技術、方案和行業全面解析”電子書,電子書通過有償的方式提供給真正需要的小夥伴,點擊原文鏈接獲取資料。
分佈式、多活數據中心如何實現DNS域名解析和負載均衡
存儲性能瓶頸的背後,這篇文章帶來的參考價值
Tintri Analytics可否通過機器學習挽回存儲失去的青春
閱讀更多 架構師技術聯盟 的文章