除了丟掉冠亞軍,中國超算跟美國還有多少差距?

《更多中國超級計算機登上全球500強榜單》,新華社雖然啟用了這個標題來報道第52屆全球超算TOP500榜單的發佈,但最近這次榜單(11月12日發佈),還是讓人們見識到了美國超算的厲害之處:輕輕鬆鬆,奪走榜單前兩名。

除了丟掉冠亞軍,中國超算跟美國還有多少差距?

部署在橡樹嶺國家實驗室的“Summit”(IBM)

有朋友要問了,讓出冠亞軍又如何?我們不還有三四名嗎?更何況,我們有227臺HPC上榜(還有臺灣地區2臺未計入該數字),佔據幾乎半壁江山;反觀美國,只有109臺入圍,差得可不是一星半點兒。中國超算哪裡比美國差了?

除了丟掉冠亞軍,中國超算跟美國還有多少差距?

全球超算榜單TOP10

先別急,我們捋一捋。

就榜單而言,美國至少有兩點碾壓我們:

第一,美國109套系統的算力總和(佔榜單所有入圍系統總計算力的38%)比中國227套系統的算力(佔31%)還多,這說明美國上榜的HPC系統平均算力更高;

這背後是,美國大多數網絡巨頭並不願意把自己的超算系統提名到榜單的中參評,所以227:109也並不能完全反映中美超算的實力

第二,超算主處理芯片及加速芯片幾乎全部為Intel(佔95.2%)和NVIDIA (137臺使用加速芯片中的122臺)所壟斷,中國僅有少數幾臺採用了國產芯片。

超越“神威·太湖之光”成為亞軍的美國超算“山脊”

,使用了包含總計8640個IBM Power9中央處理器(CPU)和17,280個NVIDIA Tesla V100張量核心圖形處理單元(GPU),而其浮點運算速度則由每秒7.16億億次提升到9.46億億次;反觀使用了超過4片自主研發的“申威”芯片的“神威·太湖之光”,其浮點運算速度為每秒9.3億億次,兩相對比,可見單個芯片性能之間的差距之大

除了丟掉冠亞軍,中國超算跟美國還有多少差距?

部署在勞倫斯利弗莫爾國家實驗室的“Sierra”(IBM)

當然,我們今天要比的是超算,單拿芯片出來說事兒,可能有點“犯規”。再者,你也可以說美國上榜的超算系統平均算力高也不能說明太多問題,畢竟美國更傾向於把用作科學計算的HPC報上榜單。

所以,中國超算比美國到底還差在哪裡?

除了丟掉冠亞軍,中國超算跟美國還有多少差距?

下面寫到的故事,可能會改變你的看法,發現美國才是真正的超算強國

常參加SC、ISC的業內人士可能會比較清楚,這種面向世界的超算盛會是一個開放的展示平臺,中國的超算廠商亦喜在大會期間搭展徠客。不過,中國超算廠商一個很明顯的特點就是,更重視硬件展示,與軟件或應用相關的展示和報告甚少。

而美國人的展臺則完全不同:幾乎每個展臺上都有大量作報告的人,報告內容包括學術研究、應用進展、超算系統新用途……十幾分鍾一個報告,應用跟隨與軟硬件產品展示結合在一起,非常有人氣。

而且,美國不僅超算廠商有展臺,美國能源部、國防部、NASA等都有自己的展臺,都會有很多技術專家在展臺上作報告,氣氛很好。

事實上,這並不鮮見。在美國召開的與高性能計算機相關的學術研討會,作學術報告的人來自能源部、NASA、高校院所等工業界、學術界,整個就是“混搭”;反觀我們,參會雖然有產業界人士,但上臺作學術報告的,百分之八九十都來自大學、科研院所。

再說一個小細節。

我們知道美國也已將E級計算機的研製納入國家戰略規劃之中。在美國E級超算項目相關的報告中,他們對未來E級計算機的使用,精確到非常細緻的程度。

舉個例子,比如美國人在計劃書中會寫到用E級計算機來提高發動機的效率。在報告中,他們能將發動機內燃燒的各種化學反應、流體計算方程等都呈現在上,關於其在T級計算機能算到什麼水平,P級、E級計算到什麼程度……也就是說,一個關於超級計算機研製的申請報告中,不僅有計算機研製的框架、方案、意義,還有關乎未來應用的、非常細節的展現。

看到這裡,你可能已經有答案了:美國超算之所以強大,不僅強大在計算機硬件、基礎軟件,還強在其應用是一脈相承的。換句話說,美國不僅硬件強、軟件強,應用也是真的強,他們的超算設備,都是好鋼用在刀刃上。

除了丟掉冠亞軍,中國超算跟美國還有多少差距?

反觀中國超算,真正實現商品化落地,不過20年餘。

1997年,曾獲國家科技進步一等獎的“曙光1000A”落戶遼河油田。那是中國超算第一次獨立進入市場、實現商品化。

後來的劇情大家都知道了,我國開始以政府和機構為主導力量添置超算“家底”。短短几年間,我們國家不僅在深圳、天津、濟南、長沙、廣州、無錫部署了六大國家級超級計算中心,不少地方政府也投建了省市級的超算中心。

可能這些超算中心建設的意義大於它們的實際價值,長久以來,坊間充斥著超算中心“指標不低,應用未滿”的傳聞。2013年~2015年穩坐世界最快超算頭把交椅的“天河二號”,曾因年耗電億元之巨、實用性和效率卻難令人滿意,一度成為眾矢之的。

時至今日,就算我們的超算應用團隊蟬聯了“戈登·貝爾獎”(2016年、2017年連續兩年基於在太湖之光上的應用),中國超算的應用問題仍然是令人頭疼的難題。

就在前不久的“2018年全國高性能計算學術年會”(HPC 2018)上,仍有院士吐槽:“超算在應用層面的滯後是我們長期以來的一個痛點。”

除了丟掉冠亞軍,中國超算跟美國還有多少差距?

中國超算缺的不是速度,而是效率和應用

那麼問題來了:中國超算為什麼沒用好?

箇中原因,其實也正是我們與真正的超算強國美國之間的真實差距——

首先,如前文所述,美國超算能力是一股自底而上的完整技術生態,從最基礎的計算單元(CPU和加速器),到基礎軟件、工業軟件或商業軟件,再到上層應用開發,是

一個完善的生態閉環;而我們的超算,絕大多數設備的計算核心並非國產,基礎軟件對外依賴,工業和商業軟件亦不例外,這造成了中國超算與美國的實質性差距

其次,即便我們“在別人的基礎上蓋大樓”,也蓋得不是那麼好。這些年來超算系統突飛猛進,應用普及的步子卻沒有隨之邁得那麼大。目前,超算中心主要業務基本還是高校、科研院所,很少有企業、小型組織在用。

而無論從哪方面來看,用好超算對企業業務競爭力的提升都具有長遠意義。現實卻是,很多企業想用上超算,卻不知該從何處下手。

除了丟掉冠亞軍,中國超算跟美國還有多少差距?

用得太少,說明我們的超算在“好用”“易用”的問題上,解決得並不充分

另一方面,超算系統的生命週期也有限。如何在它5~7年的“巔峰生涯”裡發揮更大作用,服務國計民生更多方面?

顯然,超算越易用、好用,各行各業擁抱超算的門檻才真的降低了。門檻低了,用得人才能多起來。

而超算廠商是距離超算應用最近的部門,在開展HPC設備部署的時候,無論專用還是通用,都要與用超算的人無論是科學家還是工程師充分溝通,一起解決讓這些大傢伙高效運轉起來的問題。

所以,只有開出讓超算更“易用”與“好用”的藥方,才能切中肯綮,凡擊必中

比如,要著力構建“系統軟件和中間件”接口或平臺——這是應用生態中非常關鍵的內容——系統軟件和中間件是連接超算底層和上層應用的關鍵環節,通常在超算上跑應用的技術人員,如果對計算機底層不太熟悉,會感到束手束腳,牽扯大量精力。

因此要解放這一部分生產力,讓做應用的專注於應用軟件的開發、應用環境的優化和應用效率的提升,讓專業的人做專業的事情。

這其實並不容易做到,一支高水平的支撐隊伍需要很強的交叉學科能力,才能把對超算的應用服務做到比超算的建設和維護還要出色。也就是說,只懂計算機是不夠的,還要“混搭”與應用相關的知識背景。

除了丟掉冠亞軍,中國超算跟美國還有多少差距?

其實,未來的超算應用,是一個無比廣闊市場。但是,要讓超算既能滿足科學研究這樣的陽春白雪,又能飛入萬千尋常百姓家,必須打通超算硬件與應用之間的“死谷”環節

我們常說的“死谷”研究,其實就是“應用基礎研究”。筆者曾在探討中國芯為何不進反退的話題時,談到過這一話題(點擊鏈接查看詳情)。這一研究環節處在技術產業鏈條的中間環節,是最為薄弱的地帶。


除了丟掉冠亞軍,中國超算跟美國還有多少差距?

“死谷”曲線

對應到超算應用困境來說,就是需要有人(也許是超算廠商、也許是需要超算廠商與業界專家聯手)搭建起超算硬件設備與各類超算應用需求之間的橋樑,填平超算與應用之間的“死谷”。

中山大學數據科學與計算機學院院長錢德沛曾這樣總結中國超算應用上的弱點:缺乏應用軟件、缺乏人才、缺乏有效合作,說到底,要完善高性能計算的生態環境,瞄準可持續發展。而這需要業界各領域、各個層面的人齊心協力。

是時候吹響這個號角了。

中國超算,用起來吧,以好用之名。


分享到:


相關文章: