超算雲還是雲超算?不再傻傻分不清

雲超算還是超算雲?這是個問題。

一如當年的“互聯網+”還是“+互聯網”,直到現在還是讓人糾纏不清。不過相對於互聯網一開始就普及化的應用來說,超算從曾經面向專業科研領域的應用到如今與大眾化的AI搭界,也不過就是幾年的時間。因此,回答這個問題,還是要從超算的發展講起。

超算與高性能計算的前世今生

超算,你可以理解為超級計算或者超級計算機。但是除了指代“機器”的本體之外,我們在談到這個詞的時候更多代表的是另外一個意思——高性能計算,英文稱之為High Performance Computing,換言之也可以用四個字來表達——國之重器。

超算云还是云超算?不再傻傻分不清

一直以來,高性能計算就像航天、能源等行業一樣,一直代表著國家科技綜合實力及IT發展的頂尖水平。但遺憾的是,高性能計算行業過去長期被美國、歐洲、日本等發達國家所把持,直到近些年,中國才成為了世界“超算俱樂部”中又一名新玩家。

有人跟我說,高性能計算是一項古老的學科,我表示贊同。回溯它的歷史,這一名詞最早在1929年《紐約世界報》關於“IBM為哥倫比亞大學建造大型報表機(tabulator)的報道”中首次出現。

超算云还是云超算?不再傻傻分不清

而當時光進入到20世紀60年代之後,這個領域出現了除IBM之外的眾多玩家,其中一家名為CDC (Control Data Corporation)公司不僅為整個行業貢獻出了非常優秀的產品CDC 6600(如上圖),更多則是培養出了一名偉大的人物Seymour Cray。

超算云还是云超算?不再傻傻分不清

是的,SeymourCray就是日後大名鼎鼎的Cray公司創始人。憑藉著在CDC工作多年、並且參與設計當時最快的計算機等經驗,Seymour Cray在離開後創立了自己的公司──Cray Research,也開創了超級計算機的一代梟雄。

1985年6月,Cray公司正式宣佈了CRAY-2超級計算機,成為當時峰值最高的超級計算機。隨後,雖然經歷了破產、被收購等一系列變故,但直至今日,Cray依然是超級計算機領域的巨頭之一。在今年6月公佈的最新一期世界超算TOP500榜單排行中,前10名的機器有4臺都出自於Cray之手。

提到TOP500榜單,許多人都會想到中國的位置。但其實就整個歷史發展來說,絕大多數時候這個榜單還是被美國、歐洲乃至於日本所佔領,中國成為榜單的新貴還真就是最近10年的事情。這一切,都要從天河系列說起。

按說,中國進入榜單的時間並不晚,2002年中國聯想的“深騰1800”就以每秒1.046萬億次浮點運算的實測性能排在第43位。隨後包括聯想、曙光在內的許多單位都在為衝擊榜單而努力,直到2009年,中國研發的首臺百萬億次超級計算機天河一號在當年11月的TOP500榜單中排名5位,這在當年是中國超算的最佳紀錄。

超算云还是云超算?不再傻傻分不清

可惜的是,這個紀錄轉眼就被打破了。到了第二年,升級之後的天河一號A系統成為了2011年11月TOP500榜單的冠軍,這也是中國人第一次獲得了TOP500的冠軍,這時候已經用到了來自於NVIDIA的GPU加速器。

從此一發而不可收。雖然期間先後有來自日本的K超算和美國的泰坦輪換成為世界第一名,但是自2013年天河二號成為世界第一開始到後來的神威太湖之光,連續5年間持續稱霸超算第一的寶座,直到今年6月來自美國的Summit才再次奪回霸主地位。

在外人看來,中國超算的確已經非常了不起,在這麼多榮譽的背後,必然是中國超算的新崛起,也成為了繼美國之後的超算大國。但是在眾多業內人看來,目前超算取得的成就的確值得肯定,但是我們在成為“超算大國”之後,更應該成為“超算強國”,這不僅僅需要在硬件基礎平臺上有著一流的設備,更需要在上層的算法和頂層應用上尋求新的突破,而就後兩點來說,中國還有很長的路要走。

凡有井水處,皆在談智能

倒退到四年前,2014年的NVIDIA GTC大會上,NVIDIA CEO黃仁勳先生第一次演示了Machine Learning機器學習的應用——在眾多圖片中智能選擇用戶需要的圖片。不過在當年的GTC大會上,面向自動駕駛的Tegra解決方案、全新發布的Pascal架構,甚至於之後幾年才能大放異彩的NVLink技術等等,都比機器學習更能夠吸引大眾的目光。機器學習是什麼鬼?在當年的大多數人看來,它僅僅是一個小插曲而已。

超算云还是云超算?不再傻傻分不清

沒人能想到,短短几年之後,機器學習就能夠成為整個IT行業都在熱捧的對象。從這個角度來說,恰恰是GPU的出現推動了機器學習以及其背後人工智能的發展。正如GPU當年推動超級計算機從CPU邁向異構時代一樣,是一項劃時代的變革。

伴隨著GPU時代的來臨,機器學習也不再僅僅需要藉助於CPU才能夠計算。相反,GPU天生適合對於圖片、視頻等非結構化的信息識別,這無疑也為GPU賦予了除遊戲之外更能夠打動各階層消費者的源動力。

於是乎,AI時代就這麼沒有一點防備的到來了。許多人說,這是AI的第三次興起,但是在我看來這更多是傳統高性能計算的普及化與應用的大眾化。在此之前,高性能計算只是科研院所和部分高精尖領域的“陽春白雪”,但是如今從大企業到小公司,哪怕只是一個智能手環、一個家庭音箱,都被賦予了AI的概念。這不能不說是計算的成功,也是高性能計算的“黃金時代”。

超算云还是云超算?不再傻傻分不清

但是這種普及一方面在推動高性能計算發展的同時,另一方面也暴露出了高性能計算行業長久以來存在的問題——私有化與集中化。所謂私有化,就是每家研究機構都需要單獨購買高性能計算設備,這些設備少則幾十臺上百臺服務器,多則是大規模的計算機群;另一方面,正因為這些設備的存在(雖然還是不能滿足需求),單位機構必須為之配備相應的場地、人員和經費等等,這些“大而全”或者“小而全”的存在,的確不符合當下的互聯網發展路徑。

自然也有人看到了其中的問題,於是在很早之前,也有機構開放了自己的平臺面向社會或者說面向商業化使用。記得好多年前,我就參加過某家科研機構與某品牌的聯合發佈會,其內容就是鼓勵個人或者企業,用網絡傳輸的方式(當時還不叫做雲),將自己需要的計算在機構的平臺上完成。

超算云还是云超算?不再傻傻分不清

這或許就是“超算雲”的雛形。隨著應用的發展,許多科研機構包括各大超算中心,都有了類似的解決方案。對於多年來苦於計算卻又找不到合適平臺的各大院校科研工作者來說,這無疑是一件利好;而對於超算中心機構來說,如何商業化也是它們多年來苦苦探尋的出路,將高效的機時資源交給最需要的科研用戶,這顯然是一件雙贏的事情。

當然任何事情都不會一帆風順,這其中最大的問題,就在於雖然超算中心為用戶提供了優秀的平臺,但是能否利用好它們,就看用戶自身的造化了。我之前曾經採訪過許多行業專家,大家一致認為,在高性能計算這個領域,複合型人才的培養是一個大難題。

超算云还是云超算?不再傻傻分不清

比如,一名著名的生物學教授可能在行業有著深厚的造詣和獨特的見解,但是如何將科研問題轉化為計算機能夠聽懂的語言,進而再通過計算機系統進行計算,這其中就存在應用的鴻溝,顯然生物學教授不可能也很難投入大量的時間去學習計算機專業知識;相反,計算機教授可能精通各種語言,但是對於生物學的內容可能一竅不通。這其中就需要一個既瞭解生物又懂計算機的人,這個人就叫做複合型人才。

說到這裡,你就知道這事情有多難了。生物、物理、化學、數學、天文、海洋……等等專業都需要複合型人才,而且每個專業又有詳細的分支,想要找到這麼多的專業人才,談何容易。

所以更多的時候,我看到的是本科專業的計算機人才,在碩士或者博士階段轉向了生物、物理、化學等領域,並且迅速在這些領域嶄露頭角,成為了學科帶頭人。在當下的時代,科研與計算機可謂是緊密的結合在了一起,許多應用都可以用計算機進行模擬,比如流體動力學著名的風洞試驗。

超算云还是云超算?不再傻傻分不清

在剛剛結束的杭州棲大會上,阿里雲技術研發總經理蔣江偉在主題演講中提到了阿里雲E-HPC,並將其成為之為“每一個企業都用得起的數值風洞”。他同時表示,過去汽車的風洞測試大多需要龐大的機器才能完成,今天基於阿里雲的風洞仿真能力,汽車企業能夠以更低成本、更高效率完成風洞實驗,整體效率提升了25%。

雲超算,我們不一樣不一樣

提起阿里雲的名字,大家肯定不陌生,但是提到阿里的“雲超算”,可能大家就有點疑惑了——雲超算和剛才你提到的超算雲是不是一回事兒?別說,還真不是。

剛才我們介紹了,許多超算中心或者說研究機構願意將自己的超算平臺開放出來,用戶可以通過網絡的方式連接進來,按照計時使用進行付費,這種服務我們叫做“超算雲”。但是在阿里雲看來,這種服務依然存在問題,阿里雲更希望從深層次來解決,因此才有了我們看到的——雲超算。

超算云还是云超算?不再傻傻分不清

相對於超算雲來說,雲超算不僅僅是在文字順序上進行了變化,更多的還是在底層結構上的改變。我們來看看之前存在的問題有哪些——

1、傳統的超算雲,是建立在超算中心等大型機構的物理設備上的,而且許多時候,用戶在使用這些資源的時候需要排隊。

2、因為是物理設備,所以在彈性擴展層面比較難,具體說來就是不可隨意增減。

3、正如我們提到的,用戶需要自行對上傳算例進行編程和調優,對於非計算機專業用戶難度大。

4、超算平臺上的專業應用軟件較少,硬件水平也取決於超算建設時間。

……

這些問題在阿里雲E-HPC上都能夠得到很好的解決。首先我們都知道,得益於底層的雲架構,阿里雲平臺本質就是彈性擴展的,包括神龍彈性裸金屬服務器在內最大的特點就是可以實現客戶需求的按需分配,無論是多一些計算還是少一些節點,用戶都可以動態調整,隨時滿足需求。

超算云还是云超算?不再傻傻分不清

其次,在軟件和應用層面,阿里雲不僅僅在平臺上提供了豐富的軟件,還與國內外許多機構合作,一改之前購買License才能應用的情況,實現了線上隨需購買的新模式,大大降低了採購成本,提升了計算效率。

除此之外,阿里雲還有眾多行業頂尖的工程師,針對用戶最棘手的應用與管理問題開發出了一款名為“集諦”的平臺,用戶可以通過集諦完成監控集群性能指標、查看集群性能歷史記錄、分析進程級的性能熱點等操作,進一步優化應用效率。

最新一代的硬件平臺、最大範圍的商業應用軟件集成、最先進的自動化管理與運維軟件,最便捷彈性的擴展方式,這些內容整合在一起,就構成了阿里雲E-HPC,也是阿里雲所倡導的“雲超算”概念之所在。

說到這裡,你還覺得“雲超算”與“超算雲”是同一個東西嗎?

後記:本文是“雲超算”系列文章的第一篇,旨在介紹雲超算與超算雲的差異化所在。在後續的文章中,我們還將介紹文中提到的“集諦”平臺,講述它是如何幫助用戶實現自動化的管理與控制。對於中小企業或者個人用戶來說,超算系統已經不再需要購買,在阿里雲SCC超算集群上,你就能享受到最新、最好的應用體驗。

更多內容,歡迎大家從持續關注。


分享到:


相關文章: