盤點2018:那些難忘的HPC關鍵詞

不知不覺,2018年已經走到了尾聲,再有幾天我們就要跨入全新的2019年。俗話說,一寸光陰一寸金,寸金滿買寸光陰。在這個萬象更新之際,回顧2018年HPC市場的發展,不由得讓人感慨萬千。

盘点2018:那些难忘的HPC关键词

在過去的2018年,曾10次蟬聯全球超算TOP500的中國隊終於走下“神壇”,美國憑藉著Summit的神勇表現再度榮膺第一名;

在過去的2018年,智能化不僅僅沒有停止發展的腳步,而是再度迸發出火熱的浪潮。AI化已經成為整個IT行業不可逆轉的潮流,同樣也為HPC應用注入了全新的生機;

在過去的2018年,公有云與混合雲同樣有了蓬勃的發展,特別是“超算應用”的雲化也成為了行業發展的潮流。無論是“超算雲”還是“雲超算”,都為用戶來帶了全新的服務模式,也推動傳統超算行業的迭代與發展;

在過去的2018年,你又能想起什麼呢?

2018年HPC關鍵字之一:綠色計算

2018年6月,德國法蘭克福會展中心內,ISC世界超算大會正在進行中。這已經是ISC大會連續第四年在法蘭克福舉辦,在此之前的4年中,這個會場的冠軍一直被來自中國的兩臺超級計算機所佔據,它們的名字叫做——天河二號和神威·太湖之光。

盘点2018:那些难忘的HPC关键词

但是在這一次的ISC大會上,當TOP500的發起者、美國工程院院士,橡樹嶺國家實驗室及田納西大學傑出教授Jack Dongarra帶著些許激動念出“Summit”這個名字的時候,臺下引起了不小的驚呼聲。準確說來,由中國連續10次蟬聯的TOP500超算冠軍終於易主,這也意味著美國繼當年Titan之後再度奪回了第一名。

“這臺機器的一大特性就是它實測的效率高達70%以上,應該是現有異構平臺中最高的”,中科院計算機網絡信息中心副主任遲學斌如是說。無獨有偶,美國上一次活動的TOP500冠軍的Titan也同樣是一臺異構計算的系統,當年它的出現也證明異構計算(CPU+GPU)的模式在超算應用中完全行得通。

當然,Summit的出現不僅僅是複製了Titan當年的成功,更重要的是它的效率很高,這也意味著我們在採用異構計算的情況下,同樣可以獲得較高的能效比(一般純CPU狀態下能效比可以高達90%以上),而能效比這個問題與百億億次計算的挑戰密切相關。

這不由得不讓整個業界將關注點轉移到了綠色能源的層面。其實早在多年前,儘可能的“節能”就成為了這些超算“巨獸”不得不面對的問題,而當年榮膺全球第一的天河二號就創新性的採用了液冷散熱的方式,如今這種設計在超算設計中已經成為主流。

E級計算的一個標準就是較高的能效比,或者說能夠在達到百億億次計算的時候將系統的能耗控制在合理的範圍內。對此,業界曾提出過20兆瓦的標準,後來隨著計算能力的提升這個數字放寬到了30兆瓦,但目前看來這個數字依然很難實現。

盘点2018:那些难忘的HPC关键词

即便不為了衝擊全球第一,能耗控制依然具備深度的現實意義。其實在商業環境中,超級計算機的能耗更容易被用戶所關注,因為每增加1%的能耗都意味著巨大的經濟代價。為此,許多超算中心或者數據中心都建在了電價較為低廉的地區。

比如在內蒙古的呼和浩特,數據中心的電價只要0.26元/度,但是在人口稠密的北京地區,即便政府給與了補貼之後,這個數字也高達0.6元以上。“地方政府如今的觀念也在轉變。從傳統的黑色能源輸出(煤炭)變成了全新的計算力輸出,將這些能源發出的電力轉變為計算力,供給全國各地使用。如今曙光已經在與呼和浩特相關部門接洽,建設高品質的計算中心”,曙光副總裁、中國國家高性能計算機工程技術研究中心副主任何鐵寧表示。

能源的節省只是超算應用的一方面。節流固然重要,更重要的則是“開源”。在剛剛過去的全球超算SC18大會上,中科曙光一款名為“硅立方”的產品進行了首次亮相,其創新性的採用了全浸沒液冷的散熱方式,這一產品在美國一經展出,就引起了與會人士的廣泛關注。

盘点2018:那些难忘的HPC关键词

據悉,硅立方是全球首款採用浸沒式液體相變冷卻技術刀片服務器的超算系統,這種冷卻技術使系統性能提升5%以上,電能使用效率(PUE)降至1.04以下,相當於40瓦的功率即可冷卻1000瓦的設備,而傳統的風冷系統則需要500瓦到1000瓦的功耗。

在體積上,硅立方3個機櫃相當於12到15個傳統機櫃,計算密度提升4到5倍。硅立方所具有的能效比和計算密度高等特點,為未來超算技術及其應用發展打開更多想象空間。更重要的是,它的部署對於基建和場地要求非常寬泛,“它甚至可以作為一個景觀放在建築外面。未來,按照部署地區的不同,有的地方可以制暖,有的地方可以做游泳池,有的地方甚至可以溫室或者培養花”,何鐵寧表示。

盘点2018:那些难忘的HPC关键词

不過對於用戶來說,無論未來無論是建游泳池還是溫室花房,都只是硅立方的附屬價值,而大家最關心的還是運營成本。這種差異化的系統相對於傳統超算中心來說,是否會帶來投資的增加呢?對此,曙光HPC方案專家杜夏威算了一筆賬——雖然硅立方的初期採購成本略高,但由於良好的節能效果,硅立方的運營成本會相較於傳統超算中心低很多。以行業慣例的5年生命週期為標準的話,硅立方運營的前2~3年,其節省出來的運營費便已抵消了採購增加的成本。而後兩年節省出來的運營費,相當於降低了數據中心的擁有使用成本。

近年來,超級計算機向每秒百億億次的運算速度邁進,隨之而來的能耗問題也成為行業關注的焦點。如今看來,通過增加系統規模和功耗來增加機器性能的方式已經走不通了,超算性能提升將更加依賴於系統能效比的提升。從外部條件來說,採用更為低廉的電價或許成為一種解決燃眉之急的有效方式,但是從更為長遠的角度考慮,類似硅立方之類的新型超算模式定會受到業界的歡迎,成為邁向E級計算行之有效的方式之一。

2018年HPC關鍵字之二:AI化

在IT行業,你很難想象一個概念能夠持續“熱”很多年。如果是這樣,就意味著這個概念真的是行業所亟需的。上一次“熱” 了多年的詞是雲計算,而這一次,則輪到了AI——人工智能。

似乎從2016年開始,AI這個詞就已經在行業內悄然興起,距離它前兩次席捲全球僅僅過去了20多年的時間(在計算機發展史上,這是第三次AI熱潮,上一次是在上世紀90年代)。不過與之前不同的是,這一次AI熱潮所需的三要素——計算、算法、數據——都已經齊備了。於是從2017到2018,AI這個名字火爆了整整兩年,也帶動了各行各業朝著智能化的方向邁進,當然包括高性能計算。

盘点2018:那些难忘的HPC关键词

其實說起AI,特別是AI賴以實現的深度學習和機器學習,這兩大應用都脫胎於高性能計算,甚至在許多應用中,恰恰是高性能計算孵化了AI應用的雛形。傳統意義上,高性能計算包括了大氣模擬、海洋模擬、地球勘探、物理仿真、生物基因工程等等,而這些應用的一部分就成為了AI發展的主力。不過恰恰是AI的出現,也為高性能計算帶來了新的發展機遇,也從傳統的陽春白雪變得接地氣。

作為一家常年專注於HPC的公司,曙光同樣也沒有錯過AI發展的良機。如果我們將AI比作金礦淘金的話,那麼曙光無異於是一家提供淘金解決方案的公司。這裡我們說的解決方案不僅僅包括鍬鎬之類淘金的工具,更包括找礦、篩選等許多“技術範兒”的工作,這也恰恰是曙光的強項所在。

在2018年11月舉行的GTC China蘇州大會上,曙光展示了全新XMachine系列AI服務器,這個系列主要包括X745-G30、X785-G30、X795-G30、X740-H30等四款產品。這些產品均基於英特爾最新的Skylake平臺,該系列AI服務器最多可支持8個NVIDIA NVLink的GPU或10個訓練GPU或20個推理加速卡。

盘点2018:那些难忘的HPC关键词

更重要的是,XMachine系列AI服務器可做到一個硬件平臺,兩塊不同主板(CPU、GPU),三種不同拓撲,可實現更多種類、更強適應性的AI服務器變化。“XMachine就像變形金剛一樣,可以通過不同的組合滿足不同客戶、不同業務的需求”,曙光智能計算技術總監許濤解釋說。

僅僅有硬件還遠遠不夠,如果不能通過平臺將一臺臺硬件設備管控起來或者實現統一的協調應用,終究還是無法形成合力,也對於AI應用的發展不利。為此,曙光還推出了一款名為SothisAI 2.0的人工智能管理平臺,在加強對於主流AI加速芯片支持的同時,採用容器技術與高性能計算調度技術相融合的方式,為用戶提供快速高效的機器學習、深度學習環境部署、使用和管理,也可根據用戶需求進行定製化服務。

盘点2018:那些难忘的HPC关键词

據悉,SothisAI2.0加強了對主流AI加速芯片的支持性,可支持NVIDIAGPU、AMD GPU、FPGA、DCU(Deep Computing Unit)、寒武紀等目前主流的深度學習加速器,並可集成更多框架和環境。當然對於大部分用戶來說,能夠良好的支持NVIDIA GPU就已經足夠了。

除此之外,SothisAI 2.0還具備容器化快速部署、靈活的彈性運維、對主流框架的全面支持、比虛擬機更高效等特點,用更加實用、易用的服務幫助用戶快速部署AI應用。

無論是各行各業,都有AI應用的需求。古話說,“工欲善其事,必先利其器”。想做好AI計算,想在AI的時代獲得寒假工業領先,一方面需要強大計算能力的AI硬件平臺,另一方面也需要能夠實現AI管理的工具。有了這樣優秀的工具,無論是科研領域的進步還是日常生活應用的普及化與便捷化,才成為了可能。

2018年HPC關鍵字之三:超算的雲化

早在5年前,我參加過中科院某所的發佈會,會議的主題就是某超算中心對外開放計算資源,用戶可以通過在線或者快遞硬盤的方式,用到更好的超算平臺。而時至今日,這樣的應用已經成為一種常態,用戶只要動動手指,便捷的超算雲服務就呈現在大家的面前。

“超算雲,英文叫做HPC in cloud,HPC還是HPC,只不過在雲裡面”,對於超算雲這個概念,遲學斌老師有著自己的理解。其實無論英文還是中文,超算雲這個概念顯然是強調了超算的重要性,而“將超算雲化”也就成為了順理成章的解讀。在這個定義中,超算雲所實現的就是通過雲計算或者說網絡接入的手段,將傳統的超算平臺開放給外面的用戶使用。

盘点2018:那些难忘的HPC关键词

同樣,在業界還有一個類似的概念,叫做“雲超算”。雖然聽起來差不多,但是雲超算更多的則是在雲端實現了超算應用,重點在於雲化的環境。這樣一來,整個系統的架構就是雲化的,是彈性擴展的,而HPC只是植入在雲平臺上的一項應用,同樣也是面向全社會提供商業服務應用的。

雖然聽起來有點暈,但是兩者的區別卻非常明顯。簡單說來,超算雲更多在於超算本身,而超算(超級計算機)是一臺系統,無論這臺系統的名字是叫Summit還是叫天河二號,都是一臺系統;而云超算,則是讓雲平臺實現了超算的效果,這其中雲平臺的底層(IaaS層)可能是由眾多的虛擬機組成的,並非是一臺系統。

不過對於用戶來說,大家並不看重兩者的差異化,而是更關心能否解決業務方面的難題。對於大部分購買超算服務的用戶來說,時間就是金錢,如何保證系統算得快、算得準,就成為了擺在用戶面前的難題。

所謂“算得快”就要求系統的軟硬件得搭配要出色;“算得準”,就要求程序代碼經過調優,可以發揮系統的最大性能。但是通常情況下,許多用戶不具備“算得準”的能力,所以“算得快”就成為了他們的唯一訴求。

盘点2018:那些难忘的HPC关键词

但是如今,這個問題在曙光的手中卻得到了很好的解決。今年10月,接著HPC China青島大會的契機,曙光也舉行了先進計算服務平臺的上線儀式。“曙光注重不同計算技術的科技創新及與不同行業的應用融合,同時也密切關注高性能計算本身的迭代優化,並致力於打造功能完善且符合用戶習慣的先進計算服務平臺。”曙光公司高性能事業部總經理李斌表示。基於這一出發點,曙光先進計算服務平臺應運而生。

正如我們前面提到的,由於技術能力、人員配備或者其他相關的因素,許多用戶都無法搞定“算得準”的問題,而在看到這個行業痛點之後,曙光藉助於自家獨特的應用專家團隊,推出了“500銷售+500技服”的貼心服務團隊,從而實現全生命週期、全流程服務。用李斌的話講,“扶上馬一起走”。

盘点2018:那些难忘的HPC关键词

原來,這次發佈的先進計算服務平臺作為曙光原有EasyOP的升級版,將在提供HPC在線7×24小時全生命週期SaaS級服務的基礎上,進一步提升功能完善度和客戶體驗度。在硬件配置上可以實現“原廠商、資源新、配置高、性能穩定”等特點,同時在軟件層面也搭配了眾多的主流應用軟件,並且對於其中的相關數據已提前優化並部署,尤其是針對AI、工業仿真、生命、氣象環保、材料等垂直領域可提供深度支持。

回首即將過去的2018年HPC市場,我們收穫了太多的驚喜,也承擔了太多的重擔。這其中,有得益於應用進步的喜悅,也有來自國際舞臺的壓力;有技術落地的累累碩果,也有E級計算探索的孜孜不倦;但是更多的,我們看到了HPC市場依舊蓬勃發展的生命力,看到了曙光為代表的中國企業在產品上、技術上、服務上不斷地突破和創新,也看到了千萬名HPC從業者的努力與奮鬥。

面對百億億次的挑戰,曙光正在前方。


分享到:


相關文章: