12.20 我為什麼期待英特爾Xe架構GPU?

【導言】據中國信息通信研究院的數據,我國IDC(Internet Data Center)行業保持每年32%的增長率,截至2018年底,中國已是全球超大規模數據中心數量第二多的國家,佔比全球8%,僅次於美國,但快速增長的背後卻存在著諸多問題,比如服務器利用率低、能耗過高等等,那麼面向2020年,有哪些創新的技術或產品可以為這個行業帶來變革?

上月在美國SC現場,英特爾高級副總裁、首席架構師以及架構、圖形與軟件部門總經理Raja Koduri將在下午的主會場演講上發佈期待已久的產品——Xe架構GPU。

我为什么期待英特尔Xe架构GPU?

熟悉芯片行業發展的人或許對Raja Koduri的名字不陌生,在加入英特爾之前他是AMD RTG部門主管、首席GPU架構師,也是GPU業界公認的大牛。雖然AMD的GPU業務顯然沒有老對手NVIDIA做得那麼好,但是作為業界唯二的GPU公司主要負責人,我對於Raja Koduri帶領下的部門也充滿了期待。

如此說來,Xe就是一款飽受期待的產品。雖然在此之前,英特爾也一直是GPU領域出貨量最大的品牌(是的,我說的就是核芯顯卡),但是這並非指獨立GPU市場。或者我們換個角度來說,在獨立GPU市場,英特爾的品牌影響力近乎於零。

二十年前事盡空,半隨波浪半隨風

當然,這並不代表著英特爾沒有進行過獨立顯卡(獨立GPU)的嘗試。早在1998 年,英特爾就攜手Real3D公司推出過一款型號為i740的顯卡 ,其核心頻率達80MHz,顯存主頻為100MHz(SGRAM顯存),顯存容量為8MB,像素填充率為55MPixels/s,具備64Bit圖形核心,同時支持DVD解壓和平行資訊處理、精準像素描插補等特性。

我为什么期待英特尔Xe架构GPU?

因為3D性能出色,這款顯卡很是風靡過一段時間,也受到不少玩家的喜愛。不過好事多磨,沒過多久Real3D就宣佈倒閉,並被賣給了英特爾公司。樹倒猢猻散,Real3D的員工也各奔前程,除了部分被英特爾吸收之外,另一部分員工也加入了當年叱吒風雲的ATI,後者如今已經被AMD收購。

併購了Real3D的英特爾也同樣有自己的獨立顯卡夢,並一度宣佈過一項名為“Larrabee”的項目。按照規劃,Larrabee將會是英特爾第一款實用級萬億次運算圖形處理器,但悲催的是這項計劃在醞釀數年之後,卻在2009年底被英特爾最終放棄,有消息表示放棄的原因就是產品的性能以及驅動的開發遠遠落後於原先的計劃。

一次次的失敗,讓英特爾變得越來越現實,也將目光從獨立顯卡轉移到集成顯卡上來。2010年,英特爾早AMD一步在第一代酷睿處理器(Westmere)上實現了CPU和GPU的首次融合——將名為“HD Graphics”的GPU圖形核心跟CPU核心封裝在同一塊基板上。

我为什么期待英特尔Xe架构GPU?

至此,這種將GPU從北橋芯片組轉移到處理器基板和CPU做鄰居的整合方式,也宣告集顯時代(主板集成)終結,核顯時代(CPU集成)來臨的歷史時刻。為了向過去的集成顯卡告別,英特爾也將全新的HD Graphics命名為“核芯顯卡”。

十年舊夢無尋處,幾度新春不在家

10年前,英特爾放棄獨立顯卡,轉向核芯顯卡,從而奠定了GPU市場的累計銷量第一的地位。

但是英特爾也並非沒有在獨立計算領域付諸努力。2013年,英特爾推出了一款眾核架構的產品——至強融核協處理器Xeon Phi。這款產品某種程度上脫胎於之前夭折的Larrabee,但不同之處在於Xeon Phi並沒提供任何的圖形輸出能力,它的用途只能是加速計算,對標產品就是NVIDIA的Tesla系列。

我为什么期待英特尔Xe架构GPU?

第一代Xeon Phi研發代號為Knights Corner,採用22nm工藝製造,單顆芯片集成50多個IA架構處理核心。隨後,英特爾還推出了第二代採用14nm工藝的至強融核Knights Landing,這款產品有處理器和協處理器兩種形態,尤其是作為處理器形態的小尾巴讓人印象深刻。不過考慮到這個時代NVIDIA Tesla加速卡的如日中天和英特爾在計算加速領域陷入的被動局面,就不難理解為什麼Knights Landing的設計腦洞如此之大。

我为什么期待英特尔Xe架构GPU?

作為處理器領域的霸主,英特爾進軍加速卡領域的舉措無疑是正確的,但是Xeon Phi顯然不能承擔起這個重任。雖然在英特爾最初的設想中,Xeon Phi與至強處理器都採用了x86架構,算是同種同源,但如果考慮到2009年NVIDIA就開始佈局CUDA生態系統,並且從2009年到2013年恰恰是異構計算突飛猛進發展的時間,尤其是2012年採用Fermi架構的Tesla加速卡助力Titan超算拿到了世界冠軍的桂冠,你就能明白英特爾當時的心情是有多麼急迫,對於Xeon Phi的期望有多大。

我为什么期待英特尔Xe架构GPU?

自2013年上市開始,英特爾至強融合協處理器在中國市場開始生根發芽,幾乎在任何HPC相關的場景中你都能夠看到它的身影。終於,在經過了重重努力和運作之下,國家超級計算中心廣州中心的天河二號超級計算機就採用了至強處理器+至強融核協處理器的組合,並且在2013年6月一舉拿下世界超算排行的冠軍。從而一發不可收,從2013年6月到2015年6月,天河二號連續7次榮膺世界冠軍,也為至強融核協處理器賺足了眼球。

但是眼球並不代表行業的認可。在代表HPC風向的TOP500超級計算機榜單排名中,至強融核協處理器自上榜之日起就處於弱勢地位,相比之下它所對標的NVIDIA Tesla份額卻在年年擴大。在這樣的情況下,英特爾宣佈叫停原本計劃推出的第三代至強融核Knights Mill的產品,

外媒也用“Intel Quietly Kills Off Xeon Phi”為題表達了對Xeon Phi的惋惜。或許Knights Mill這個名字本身就讓人有些唏噓,不由得想起了衝向風車磨坊的唐吉坷德。

從i740到Xeon Phi,英特爾用10年的時間證明了一個道理,欲速則不達。

江東子弟多才俊,捲土重來未可知

10年後,英特爾再度發力,準備將獨立GPU也同樣納入懷中。特別是對於企業級市場來說,GPU所代表的含義並非圖形,而是計算。美國時間11月17日下午4點,在科羅拉多州丹佛會議中心,Raja Koduri發佈了英特爾新一代Xe架構的GPU,這也意味著英特爾在經過了20年的掙扎之後,終於開始走上了獨立GPU的道路。

我为什么期待英特尔Xe架构GPU?

具體說來,這次英特爾發佈的Xe GPU並非是一款產品,而是一個架構,一個能夠應用於高性能計算、深度學習與訓練、雲服務、多媒體編輯、工作站、遊戲、輕薄筆記本、便攜設備等等場景的計算架構。在這個問題上,你可以理解為英特爾提供了一種集GeForce、Quadro和Tesla於一體的產品,其實本質上這些設備也無非就是提供了計算能力而已。

我为什么期待英特尔Xe架构GPU?

那麼,在英特爾看來,Xe GPU是如何來區分的呢?其實暗中另有乾坤。按照應用場景,Xe GPU也被劃分成了三個系列(但與NVIDIA的定位不同)——

Xe LP低功耗系列——用於集成核顯、入門級獨顯,典型功耗5-20W,最高可擴展到50W。

Xe HP高性能系列——用於主流和發燒消費市場、數據中心和AI領域,典型功耗75-250W。

Xe HPC高性能計算系列——用於超級計算機等,功耗暫無具體數值但基本不會有什麼限制。

我为什么期待英特尔Xe架构GPU?

作為最高端產品,HPC級Xe的最大特性就是可以擴展到上千個執行單元(thousands)。這裡,每個執行單元都進行了升級,提供40倍的雙精度浮點計算能力。Xe HPC架構還將包括一個非常大的統一緩存,稱為Rambo緩存,它可以將多個GPU連接在一起。

我为什么期待英特尔Xe架构GPU?

另外值得一提的是,未來的Xe架構的GPU將採用7nm工藝製造,稱之為Ponte Vecchio。要說經過臺積電的先期科普,許多人都知道了7nm架構對於處理器的價值,包括英特爾的“老朋友”AMD也一直在強調目前基於架構工藝的領先性。這一次Xe架構採用了7nm,也說明英特爾對7nm的量產也有信心(雖然現在更“成熟”的10nm產品還依然很少)。另外相對臺積電工藝,大家對於英特爾的7nm也是充滿了期待。

我为什么期待英特尔Xe架构GPU?

還需要順便一句的就是英特爾在X架構內部採用的名為Xe-link的互連技術,當然目前這種技術基於CXL標準(即Compute Express Link) 。有了這些技術的加持,英特爾面向百億億次計算的信心就更足了,而在解決了傳統GPU應用的短板之後,英特爾似乎已經滿足了硬件層面HPC應用的所有要求,計算、加速、存儲、網絡應有盡有。

如果你愛一個女孩子十分卻能表達出一分,倒不如你愛她一分,卻能表達出十分——孟京輝《戀愛的犀牛》

不過在HPC領域,硬件性能固然重要,但是也並非起到決定性的作用,因為軟件和應用的優化才是重頭戲。俗話說“好馬配好鞍,好車配風帆”(風帆請把廣告費付一下),有了強大的硬件平臺之後,英特爾更希望實現上層軟件和應用的統一化,為此它特別推出了一款名為oneAPI的軟件計劃,也在這次大會上一起發佈了。

即從巴峽穿巫峽,便下襄陽向洛陽

從2000多年前秦始皇“書同文、車同軌”開始,“統一”的觀念就已經深入中國人的骨子裡,而在HPC應用的這一問題上,我們也同樣需要有統一的行業標準和平臺。“統一”的好處是不言而喻的,特別是對於開發者來說,大家採用同樣的接口標準或者編程平臺,那麼在後續的軟件優化與延續性方面來說都會事半功倍。

我为什么期待英特尔Xe架构GPU?

會上,Raja Koduri特別提到了oneAPI計劃的目標,就是開放、簡單擴展和無人掉隊。對於最後這點,Raja Koduri尤其強調了它的困難性(hardest),但是也正是這一點,才能夠使得所有的開發者站在同樣的起跑線上,也讓針對HPC應用的軟件和應用程序能夠有據可循。

我为什么期待英特尔Xe架构GPU?

按照構想,oneAPI是一個以開發者為中心的平臺,將為AI應用無處不在、多架構並存的世界重新定義一種新的編程方式。oneAPI提供一個通用、開放的編程體驗,讓開發者可以自由選擇架構,無需在性能上作出妥協,也大大降低了使用不同的代碼庫、編程語言、編程工具和工作流程所帶來的複雜性。oneAPI保留了現有軟件投資,包括支持現有語言,同時為開發人員創造更多豐富的應用程序提供了靈活性。說白了,就是不管你的底層硬件是什麼,通過oneAPI系統都可以針對硬件實現優化,智能的優化,針對不同的應用調用最好的資源,讓應用變得更好。

我为什么期待英特尔Xe架构GPU?

與此同時,Raja Koduri也宣佈了oneAPI測試版項目已正式上線,有興趣的小夥伴可以去英特爾軟件官網看看(稍後可以註冊),這樣就可以在雲端實現開發環境的體驗了。不過針對這個測試版,我之前聽過有英特爾的朋友談到這個問題,畢竟oneAPI作為行業標準還在萌芽狀態,率先推出測試版的主要作用就是加強開發者之前的溝通與試錯。計劃在經過一年左右的磨合期之後,英特爾將會推出正式版。

我为什么期待英特尔Xe架构GPU?

講完了硬件,講完了軟件和應用平臺,就在大家以為演講即將結束的時候,Raja Koduri突然“放大招”,邀請了美國阿貢實驗室的專家Rick Stevens來分析美國第一臺E級超算平臺Aurora的相關細節。按公開資料,Aurora是美國能源部定製的一款百億億次超級計算機,也是第一臺採用英特爾架構的百億億次超級計算機,英特爾將所有未來的頂級技術都應用於該平臺。

我为什么期待英特尔Xe架构GPU?

按照計劃,Aurora的計算節點架構將由兩個10納米英特爾至強可擴展處理器(代號Sapphire Rapids的產品,不知道什麼時候上市)和六個Ponte Vecchio GPU(還是不知道什麼時候上市)共同組成。該系統同時還將支持超過10PB的內存和超過230PB的存儲容量,並能通過Cray Slingshot技術(更不知道什麼時候上市)連接超過200個機架的節點。三個“不知道”,為這套超級計算機增添了不少神秘色彩,也說明了英特爾包括美國的傾盡全力。

既然美國如此,中國是否也有類似的產品呢?答案是肯定的。其實早在多年前,中國就開始了百億億次E級超算原型機的研發,並且確定了三種技術路線。如今,三大路線的原型機都已經通過驗收,甚至許多設計理念已經付諸商用(我還參觀過其中一臺)。應該說,在百億億次的問題上,包括美國、中國、歐洲、日本等許多國家和地區都已經行動起來,而且所有人核心原則都是四個字“自主可控”。這也可以看出超級計算機在未來科技競爭中的龍頭地位,所謂“兵家必爭”。

不畏浮雲遮望眼,只緣身在最高層

說了這麼說,“不忘初心”的回顧一下題主的問題,說的是2020年最期待的數據中心技術或者產品。說到數據中心這個話題,我相信知乎上包括網絡上一大部分小夥伴都是不清楚的,大家更熟悉的是酷睿處理器、熟悉的是GeForce顯卡,熟悉的是某個遊戲或者某個視頻。

數據中心是一個很特殊的領域,雖然看起來服務器本質上與PC電腦並沒什麼不同,但實際上PC因為只面對個人用戶,所以只要性能夠、速度快就能玩得爽,但是數據中心設備要求的維度更多,性能只是其中的一個方面。除此之外,穩定性與可靠性、上層軟件與應用、對應的軟硬件生態系統,這些都是使用者需要關注的問題。而相對這些,性能反而並不是主要因素。

我为什么期待英特尔Xe架构GPU?

之所以提到這個問題,就是因為在我看來英特爾Xe架構的GPU所代表的性能並非是絕對重要的,而是它補齊了英特爾這隻木桶一直欠缺的、嘗試幾次卻都以失敗告終的最後一塊短板。如果,我是說如果,英特爾能夠在與NVIDIA的競爭中補齊最後這一點點差距的話,哪怕是佔據當下10-20%的市場份額(當然包括Raja Koduri在內的英特爾高管預期比這個高得多),以英特爾的體量和整個生態的能力,就可以成為數據中心領域絕對意義上的霸主(雖然現在也差不多了)。

為什麼我會如此確定以及肯定呢?就是因為在Xe架構GPU之後,英特爾就成為了業界唯一一家能夠提供CPU、GPU、FPGA、AI芯片的全能型公司,並且能夠為這些芯片適配相應的軟件、應用環境和整個生態,而後者恰恰是包括NVIDIA和AMD在內所欠缺的。相比之下,NVIDIA側重於GPU和AI芯片環境,而AMD則是在CPU、GPU上更強一些。但是無論如何,它們在整體解決方案能力上都與英特爾存在著巨大的差距,而這種差距是多年來一代代產品的積累,是除去硬件之外的軟件與生態的經營,並不是一朝一夕所能實現的。

這就是數據中心市場與個人消費類市場最大的不同。在英特爾加入之後,GPU市場的競爭將會更加熱鬧,相對來說這個市場的主要玩家就從一家變成了兩家(消費級市場或許有三家)。

感謝AMD的出色表現,讓我們買到更超值的英特爾處理器;同樣也感謝英特爾,讓NVIDIA在不久之後對Tesla的價格進行不小的讓步和妥協。

我期待2020年,我更期待這一天的早日到來。


分享到:


相關文章: