誰是當今FPGA芯片性能之王?

來源:內容由「網絡交換FPGA」編譯自「eejournal」,作者:Kevin Morris,謝謝。


英特爾本週(2019年9月)宣佈,他們已經開始向早期進入市場的客戶出貨第一批新的Agilex FPGA。這讓我們進入了我們歷來認為的兩大FPGA供應商之間的競爭 "頭對頭 "階段。早在2019年6月份,Xilinx公司就出貨了他們的第一款 "Versal ACAP "FPGA,因此,在經歷了 "誰先出貨?"的漫長而有爭議的爭論之後,事實證明,這兩家競爭對手在大約兩個月內就開始出貨他們的同類FPGA產品線。這意味著,與最近其他的工藝節點上的爭奪第一不同的是,兩家公司都沒有什麼重要的時間來搶奪設計上的勝利,都是以一種新的、優勢的、沒有被對手競爭的技術來搶奪設計上的勝利。

誰是當今FPGA芯片性能之王?

不過,這一次,競爭的領域更大了,中間商Achronix公司聲稱,他們將在今年年底前推出首批Speedster 7t FPGA樣品。對於開發團隊來說,這意味著到今年年底,將有三款差異化的高端FPGA產品供他們選擇--都是採用類似的工藝技術,並且都具有獨特的特性和能力。

這將是多部分系列中的第一篇,對這三家廠商的新高端FPGA系列進行比較。我們將從底層工藝技術、FPGA邏輯(LUT)結構本身、加速處理和網絡化的硬化資源、內存架構、芯片/封裝/定製化架構、IO資源、設計工具策略、每個產品的獨特和新穎的特性和能力以及營銷策略等方面進行比較。繫好安全帶,這將是一次令人興奮的旅程。呃,如果你是那種從巨大的FLOPS數、瘋狂的帶寬和一些有史以來最有趣的、能力最強的半導體器件中獲得快感的人。

競爭領域從通信轉移到數據中心

這一次,高端FPGA霸主之爭的獎項發生了一些變化。過去,高端FPGA最大的市場是在網絡領域,市場份額的變化也是如此,主要是看誰能從部署新一輪有線和無線網絡硬件的客戶中,以新一代家族的設計勝出,獲得最豐富的設計勝出。然而,5G的推出時機改變了這一動態。5G在當前的FPGA技術浪潮到來之前就開始了規模化,因此,5G的第一輪骨幹器件都是建立在上一代可編程邏輯上。這些器件將流向已經強大的5G生態系統,因此我們在5g的徹底革命和新一代FPGA的誕生之間並沒有保持一致。這些FPGA在設計的時候,對5G的機理已經相當瞭解。不過,不要小看FPGA對5G的重要性,或者說5G對FPGA市場的重要性。當你今天使用手機的時候,大概有99%的概率,你的通話會通過一些FPGA。到了5G,FPGA的影響會更大。

誰是當今FPGA芯片性能之王?

這一事實與新興的數據中心加速市場的快速擴張---主要是針對AI工作負載的數據中心加速市場的快速擴張形成了有趣的博弈。據估計,未來幾年內,AI加速市場將急劇增長,而這些設備--價格不菲,功耗預算不高--將主要爭奪該市場的數據中心部分,儘管這三家廠商都聲稱要提供能幫助到邊緣/端點的解決方案。這些廠商都非常明確地表示,抓住這些AI加速插座是一個優先考慮的問題,他們都圍繞著這個想法來架構他們的新芯片。這些因素的結合為這三家公司在5G和AI加速領域的激烈競爭奠定了基礎--這意味著這些設備需要具備強大的AI加速功能、強大的網絡性能、強大的開發工具來部署這些超複雜的芯片,以及狡猾的營銷策略。

我們來看看所有這些因素吧?

三家FPGA廠商工藝PK

從底層工藝技術入手,Xilinx和Achronix的FPGA系列都是在臺積電7nm工藝上製造的,而英特爾Agilex則是在能力相近的英特爾10nm工藝上製造的。不要被7/10命名法的差異所迷惑。我們很早以前就已經達到了這樣的境界:半導體營銷團隊根據市場上聽起來很好聽的東西來命名節點,而不是從晶體管本身的任何可辨識的特徵中得出。根據我們的估計,臺積電的7nm和英特爾的10nm工藝大致相當,而使用這兩種工藝的廠商基本上都同意。這意味著,英特爾在製程技術上長期以來的領先優勢似乎已經化為泡影,但是,隨著摩爾定律的黃昏臨近,硅製程上的競爭領域不可避免地會趨於平緩。

誰是當今FPGA芯片性能之王?

三家廠商都能從跳轉到最新的半導體制程節點上獲得適度的提升。然而,這種跳轉可能達不到歷史上的摩爾定律標準,因為在過去的幾個節點上,每一次新工藝更新帶來的增量效益都在穩步下降。當FinFET技術出現時,每個人都得到了一次性的暫時性的提升,而現在,隨著摩爾定律即將到來的經濟終點,我們很可能會看到邊際回報遞減的趨勢的延續。

在過去,由於晶體管尺寸的縮小,每一個新節點都會帶來更高的密度、更好的性能和更低的功耗,而這一切都是由於晶體管尺寸的縮小而帶來的。而現在,廠商不得不在這三者之間進行權衡,即使在他們所青睞的指標上,也往往會得到較小的回報。與此同時,轉移到新工藝節點的非經常性成本繼續呈指數級攀升。這意味著FPGA公司的利害關係急劇上升,因為他們必須以不斷降低的收益來穩定地增加投資,以保持競爭力。這也意味著我們正在進入一個時代,在這個時代,FPGA本身的架構和特性、用於實現FPGA的工具以及三家公司的營銷策略將成為關鍵因素,而不是誰先進入新的工藝節點的時機。

三家FPGA廠商LUT結構及摺合資源對比

考慮到工藝技術本質上是一種洗滌,我們來看看各廠商提供的能力和特點。先從最基本的FPGA功能開始--LUT結構。我們經常感慨,每個公司對LUT的計算方式都不一樣,而且隨著每一代產品的更新換代,這種博弈變得更加複雜。Xilinx和Achronix目前使用的是類似於6輸入的LUT,而Intel的ALM基本上是8輸入的LUT。廠商們或多或少都同意,我們可以用每LUT6的2.2個LUT4s和每LUT8的2.99個LUT4s的係數將這些數字轉換為等量的4輸入LUT。

誰是當今FPGA芯片性能之王?

注:FPGA內部結構可點擊查看本公眾號文章《手把手教你動態編輯Xilinx FPGA內LUT內容》。

根據這一計算,Achronix Speedster 7t系列以363K至260萬LUT6s(折算成800K-576萬LUT4等效)領跑,Intel Agilex以132K-912K ALM(折算成395K-270萬LUT4等效),而Xilinx的Versal系列則以246K-984K CLB(折算成541K-220萬LUT4等效)。每家廠商都宣稱自己的架構更勝一籌,強調了在某些特定應用或配置中可能提高邏輯密度、性能或可路由性的設計特性。目前我們還不清楚任何一個廠商的LUT是否比其他廠商的LUT有明顯的優勢。

誰是當今FPGA芯片性能之王?

然而,你能用一個FPGA做的事情只有一部分是由LUT數量決定的。我們還必須考慮到實際使用這些LUT中的一個有意義的百分比的挑戰(我們將在稍後的設計工具中討論),以及在硬化的邏輯塊中裝入多少能力,使設計能力可以在LUT結構中以最小的參與度來實現。根據你的設計,你可能會發現你可以在一個或另一個FPGA中裝入更多的功能--與LUT數量無關。

三家FPGA廠商計算資源對比

FPGA擅長於AI推理的主要原因是,由於在可編程邏輯結構中交織著巨大的 "DSP "塊陣列,可以並行完成大量的算術運算(主要是乘法運算,以不同的精度進行乘法運算)。這使得FPGA能夠比傳統的馮-諾依曼處理器更有效地執行矩陣運算,如卷積等。

誰是當今FPGA芯片性能之王?

再看對AI推理至關重要的硬件乘法器,Achronix公司的可變精度乘法器可以產生41K int-8個單元,即82K int-4個單元。英特爾Agilex有2K-17K 18×19的乘法器,而Xilinx Versal則帶來了大約500-3K的 "DSP引擎",大概是 "DSP58 slice",其中包括27×24的乘法器和新的硬件浮點能力。這種比較顯然是 "蘋果對橙子對芒果",至於哪種水果更適合你的應用,想必有些 "注意事項"。

這三家廠商現在都提供了對浮點的硬支持。Achronix公司的DSP塊採用了全新的架構,他們稱之為 "機器學習處理器"(MLP)。每個MLP最多包含32個乘法器/累加器(MAC),4-24位整數模式,以及各種浮點模式,包括原生支持Tensorflow的Bfloat16格式以及塊浮點格式。最重要的是,Achronix MLP將嵌入式內存塊與算術單元緊密地耦合在一起,使MAC操作可以在750 MHz的頻率下運行,而無需通過FPGA結構等待內存。

誰是當今FPGA芯片性能之王?

英特爾還使用了可變精度DSP塊與硬件浮點(基本上就像他們多年來在FPGA中提供的那樣)。英特爾的浮點支持可能是三者中最廣泛、最成熟的。通過Agilex,他們推出了兩種新的浮點模式,即半精度浮點(FP16)&塊浮點(Bfloat16),並且他們還進行了架構調整,使他們的DSP操作更加高效。

Xilinx已將其以前的DSP48 Slice升級到DSP58 –大概是因為它們現在包括硬件浮點,並且其乘法器也升級到了27×24。因此,在這一代產品中,其他兩家供應商也加入了Intel提供硬件浮點支持的工作。對於Xilinx而言,這是一個反轉。賽靈思此前聲稱,FPGA中的浮點支持不是一個好主意,因為浮點主要用於訓練,而FPGA則主要針對推理。

在浮點格式方面,Versal(最高2.1K乘法器)和Agilex(最高8.7K乘法器)支持FP32。所有三個系列都支持半精度(FP16)--Versal最多2.1K乘法器,Agilex最多17.1K乘法器,Speedster最多5.1K乘法器。Bfloat16由Agilex(最高17.1K乘法器)和Speedster(最高5.1K乘法器)支持。對於FP24,Versal和Agilex大概會使用FP32單元,而Speedster最高支持2.6K的乘法器。Achronix Speedster還支持高達81.9K的乘法器,用於塊浮點。

誰是當今FPGA芯片性能之王?

Xilinx還帶來了一種新的軟件可編程矢量處理器---由高達400個1GHz+VLIW-SIMD矢量處理內核組成的陣列,具有硬計算和緊密耦合存儲器。這為並行化複雜的向量運算和利用FPGA豐富的計算資源提供了更簡單的編程模式。總的來說,這符合Xilinx明顯的 "廚房水槽 "競爭策略上的 "GPU/推理引擎 "框。我們稍後再來談談這個問題。

英特爾對Achronix MLP和Xilinx矢量處理器的回答是老派的進化。他們指出,Agilex的DSP塊實現了與其他廠商的新DSP功能相同的功能,使用的是既定的、廣為人知的FPGA設計開發流程,而且不需要客戶在器件的各個架構塊之間進行設計分割。如果你的團隊擁有FPGA/RTL設計專業知識,這是一件好事。如果你所處的應用是由軟件工程師來做DSP,那麼Xilinx的軟件可編程方法可能會有優勢。

三家FPGA廠商計算性能對比

除了簡單地計算乘法器,我們還可以通過看廠商宣稱的總理論性能來比較能力。不過這裡有一點要注意的是。這些宣稱嚴重誇大了,並故意難以準確定義。廠商通常是通過將芯片上的乘法器數量乘以這些乘法器的最大工作頻率來得出 "最高XX TOPS或TFLOPS "的數字。很顯然,沒有一個現實世界的設計會100%地使用可用的乘法器,沒有一個能達到這些乘法器的最大理論時鐘頻率,也沒有一個能保持這些乘法器以適當的速率提供輸入數據,而且這些操作的精度因廠商而異。換句話說,這是一個很可怕的度量,但這是我們目前最好的比較標準。

如果非要估計的話,我們會說FPGA在現實世界的設計中可以實際達到理論最大值的50-90%。這比GPU要好得多,比如說GPU在現實世界中被認為只能達到理論最大值的10-20%。

誰是當今FPGA芯片性能之王?

如果我們將int8操作的TOPS數字推算出來,Xilinx Versal以約171個TOPS位居榜首,其中包括133個向量處理器、12個DSP塊和26個邏輯結構。Speedster緊隨其後,約有86個TOPS,其中61個來自他們的MLP,25個來自邏輯結構。Agilex以92個int8 TOPS排名第一,其中51個來自於DSP塊,41個來自於邏輯結構。從bfloat16 FLOPS來看,Agilex以40個領先,Versal以9個緊隨其後,Speedster以8個位居第三名。Speedster在塊浮點運算方面有很大的優勢,有123個FLOPS,Agilex以41個緊隨其後,Versal以15個位居第三位。

這些數字均來自公司自己的數據表,並且正如我們提到的,這是理論上的最大值,在實際的實際應用中不可能達到。Achronix的“可用”主張具有一定的優點,因為它們的MLP是獨特的設計,旨在將可變精度乘法運算保持在模塊本身內,並以最大時鐘速率運行,而無需往返邏輯結構即可完成最常見的AI推理操作。同樣,Xilinx的矢量處理器架構應該能很好地保持數據在算術管道中流暢地流動。話雖如此,但我們還沒有看到一個基準或參考設計以任何有意義的方式動搖了這些公司的說法。

三家FPGA廠商片內佈線帶寬對比

當然,使用所有這些LUT和乘法器需要讓你的設計在你選擇的芯片中實際佈局佈線並滿足時序要求。隨著FPGA的發展,這已經成為一個越來越難的挑戰。單bit線網和邏輯通路扇出在巨大的芯片上擴散,而佈線資源有限,這使得傳統的時序收斂成為一場噩夢。在同步設計上實現時序收斂的傳統技術一個接一個地碰壁,未能實現規模化。Xilinx和Achronix在其新一代FPGA中解決了這一問題,在傳統的邏輯和佈線結構的基礎上增加了片上網絡(NoC)。NoC本質上改變了遊戲規則,因為整個芯片不再需要在一個巨大的神奇匯流中實現時序收斂。現在,更小的同步塊可以通過NoC傳遞數據,減輕了傳統佈線結構的負擔,並將原來巨大的設計自動化工具問題分解成更小的、可管理的塊。

誰是當今FPGA芯片性能之王?

幾代人以前,英特爾已經採用了另一種方法-用稱為“ HyperFlex寄存器”的大量微型寄存器鋪砌整個邏輯結構。這些寄存器允許對更長,更復雜的邏輯路徑進行重新定時和流水線處理,從而使整個設計實質上變得異步。有趣的是,這也是Xilinx和Achronix使用的NoC的淨效果。每種方法都面臨挑戰,因為這兩種方法都會給芯片設計和我們使用的設計工具增加大量複雜性。在英特爾的案例中,據報道,HyperFlex寄存器對邏輯架構可以實現的整體速度也有一些負面影響。英特爾表示,Agilex FPGA中的HyperFlex體系結構是第二代,與上一代HyperFlex體系結構相比具有改進/增強功能,可以提高性能並簡化時序收斂。在Agilex取得進展之後,我們將不得不拭目以待,看看用戶報告了什麼。

誰是當今FPGA芯片性能之王?

在進行NoC佈線的兩家供應商中,Xilinx和Achronix中,Achronix聲稱通過其二維跨芯片AXI實現了最快的NoC。NoC中的每一行或每一列都實現為兩個工作在2 Ghz的256位單向AXI通道,同時在每個方向上提供512 Gbps數據流量。Speedster的NoC總共有197個端點,產生27 Tbps的聚合帶寬,比FPGA的傳統按位佈線資源少了很多。據我們所知,Xilinx的Versal NoC性能尚未發佈,但是大約有28個端點,我們猜測大約是1.5 Tbps。

誰是當今FPGA芯片性能之王?

好了,本文就到此為止,但是下週我們將繼續進行下去–看看這些FPGA系列帶來的迷人而靈活的存儲器架構,每個系列的獨特封裝和定製功能,瘋狂的SerDes IO功能,嵌入式處理子系統,設計工具流程等。

原文地址:https://www.eejournal.com/article/high-end-fpga-showdown-part-1/。

全文完。


分享到:


相關文章: