三強爭霸高端FPGA(二):內存,I

來源:內容由半導體行業觀察(ID:icbank)編譯自「eejournal」,作者:Kevin Morris,謝謝。

在本系列的第1部分《三強爭霸高端FPGA(1)》中,我們研究了Achronix,Intel和Xilinx的新型高端FPGA系列。我們比較了底層半導體工藝,可編程邏輯LUT架構的類型和數量,DSP /算術資源的類型和數量以及它們在AI推理加速任務中的適用性,供應商們公開宣佈的TOPS / FLOPS性能能力以及片上互連(例如FPGA路由資源和片上網絡(NOC)。從這些比較中可以明顯看出,這些供應商提供的每項產品都具有獨特而有趣的功能,這些功能將使它們在特定的應用領域脫穎而出。我們也強調了對這種複雜的半導體器件進行有意義的分析有多麼困難。

Xilinx,Intel和Achronix這三個供應商都與我們討論了我們的假設和分析,併為該系列內容提供了寶貴的見解。

本週,我們將討論內存架構,封裝內集成架構和高速串行I/O功能。在這裡,我們將看到這一代FPGA的複雜性遠遠超過其直接的前代,並且我們將進一步證明它們可能是有史以來最複雜的芯片。在半導體發展史上,我們正處於一個令人著迷的時代,摩爾定律在經濟上已經走向了終結,新一代的AI技術和應用要求一種全新的計算方法,巨大的競爭利害關係正在打開廣闊的新市場,也為新設備帶來了機遇。

FPGA的實際性能取決於內存結構以及計算資源和內部帶寬。在當今的計算環境中,高效地移動、處理和存儲數據是計算流程中的關鍵。如今,全球數據基礎架構的範圍從小型、傳感器負載的端點到網絡邊緣、本地存儲和計算,回傳到擁有大量計算和存儲資源的雲數據中心,然後經過整個過程再次返回到邊緣。FPGA在這一數據傳輸往返過程中的作用是巨大的——FPGA在存儲、網絡、內存和計算方面都做出了巨大貢獻。

我們應該指出的是,Xilinx堅持認為他們通用的ACAP系列器件是獨立於FPGA的一個類別,他們稱“ACAP”是“自適應計算加速平臺”。據我們所知,這一主張的關鍵是Versal是面向與傳統FPGA不同的受眾群體-應用開發人員,這一受眾群體可能不具備FPGA專業知識。但是他們需要一種交互模型,而不是從配置FPGA結構的開始。他們指出,實際上,Versal可以自行啟動和運行,而無需配置FPGA架構。這與矢量處理引擎和片上網絡(NoC)之類的功能相配合,是他們認為Versal器件是“ACAP”而不是“ FPGA”的依據。

但是,出於此處的目的,我們將繼續以FPGA系列評估的方法Versal ACAP。我們相信這三種產品將經常爭奪相同的插槽。此外,我們的讀者中有一大批FPGA設計專家,追溯到2009年之前,當時我們被稱為“ FPGA Journal”。我們理解Xilinx市場定位背後的動機。他們想要吸引一個新的市場——對這部分客戶來說,"FPGA"可能是一個令人生畏或困惑的標籤。Xilinx對其"Zynq"系列器件採取了類似的策略——將其稱為"SoC"而非"FPGA"。但是,"ACAP"更難銷售,因為SOC類別已經存在,並且有大量的競爭性產品。創建一個新的分類是一個艱鉅的任務。我們將看看它是否會流行起來。我們正在等待第一個競爭對手製造一種他們稱之為"ACAP"的器件。

這些競爭產品家族中的每一個在針對他們設想的目標應用程序優化內存體系結構方面都採取了不同而有趣的嘗試。與傳統的CPU或GPU架構不同,FPGA獨特之處是允許重新配置存儲器層次結構以匹配手頭的任務。這可能對最終應用程序的吞吐量、延遲和功率效率產生巨大影響。FPGA存儲器架構使我們能夠劃分應用程序,以便每次使用存儲器時都可以在局部性/帶寬和密度之間取得最佳平衡。

從密度最低但帶寬最高的地方開始,是LUT本身的內存資源。在那裡,邏輯可以直接通過硬連線訪問少量存儲的數據,從而為數據流創建最有效的路徑。所有的FPGA架構都有基於LUT的存儲器作為核心功能。LUT內存的數據量與LUT計數大致成正比,我們上週討論過這個問題。雖然這種存儲是超本地的,併為相關邏輯提供了的最佳帶寬,但大多數應用程序的內存需求遠遠超過了稀少而寶貴的LUT內存資源。

如果在密度上提高一級而在帶寬上降低一級,那麼,我們就可用FPGA架構中的“block”存儲器來構建存儲體系。顧名思義,block結構是FPGA架構內專用的存儲區,數據路徑會跨越更多FPGA互連線。每個供應商都有自己的策略來劃分這些片上存儲器資源。他們已經對各種類型的應用程序及其內存需求進行了詳盡的建模,權衡了分佈和密度,並提出了一種分層的方法。這使他們感覺最能解決最廣泛的問題,尤其是針對主要目標應用程序類型。

從Achronix開始盤點,Speedster7T提供高達385MB的嵌入式內存,分佈成LRAM2K、BRAM72K和MLP模塊。Intel Agilex用三種類型的Block嵌入式內存(MLAB,M20K塊和eSRAM存儲器塊)提供了300 Mb的嵌入式RAM。Xilinx Versal在其最大的"AI核心"器件中提供了block RAM、"UltraRAM"和加速器RAM,總計約294MB。這些架構中的每一種都是供應商的最佳選擇,它認為在各種目標應用程序中,採用多大的塊以及與其他資源的匹配程度將決定其最佳性能。

將層次結構再上一層,FPGA包中就包含了存儲器。這通常利用諸如HBM的高密度、高帶寬、高成本的技術中實現。由於我們要通過芯片外(通過插入器或EMIB或其他封裝鏈路)實現這一目標,因此延遲和帶寬要低於嵌入式存儲器,但要好於我們通過芯片外接口實現在PCB上訪問常規存儲器的延遲和帶寬(稍後我們還將闡述)。此級別的目標是將高密度和高帶寬結合在一起——數據遠遠超出片上存儲器可以容納的範圍,並且帶寬要比訪問PCB上外部存儲器要高得多。

但是,在討論封裝內存儲器之前,我們應該先了解一下這三個供應商在封裝級集成方法上的根本差異。在這裡,我們認為英特爾Agilex有最大的靈活性,並以最小的最終用戶費用。英特爾的Agilex專為封裝內集成的靈活性而設計。英特爾使用稱為EMIB(嵌入式多管芯互連橋)的專有技術來連接封裝內的小芯片。FPGA架構本身是一個chiplet,SerDes收發器則接收另一個封裝內存儲器,例如HBM另一個,以及其他可選外圍設備。這些外設中的每一個都可以採用不同的工藝實現,這意味著Intel可以隨時更新或新增任何chiplet,而不必重新設計其整個FPGA(就像採用單片方法一樣)。英特爾公司在此方面的另一個優勢是,他們能夠基於他們最近獲得的eASIC技術來裁剪自定義chiplet。這意味著用戶的自定義邏輯可以以最少的NRE和設計開銷添加到其FPGA封裝中。eASIC允許將最初以FPGA架構(例如)實施的設計加固為chiplet——從而提供類似於ASIC的性能,密度和功率效率。

Achronix已宣佈將Speedster 7T作為獨立芯片系列,但同時也提供Speedcore嵌入式FPGA版本,該版本包含與Speedster7T相同的資源,但也可以包含自定義指令,以針對特定的應用類別進一步優化。這些可以是專用的分組處理,TCAM或信號處理功能。在這種情況下,集成策略取決於芯片和封裝的內容,以及與FPGA架構在同一塊硅片中包含的強化IP,這完全取決於客戶的設計團隊。這種方法為最終用戶提供了最大的靈活性和控制力,但是在客戶端需要更高的成本、風險和設計專業知識。

Achronix也從事chiplet業務,並參與開源計算項目(OCP)的開源專用架構(ODSA)計劃。ODSA正在努力建立標準,以驅動開放的chiplet生態系統,這將有助於創建可混合和匹配來自多個供應商的chiplet的SiP。這將實現與英特爾類似的封裝級定製,但不能使用英特爾專有的EMIB互連技術。Achronix的觀點是,設計團隊最初通常會使用獨立的FPGA解決方案。一旦設計通過驗證,便會進行降低成本的階段,其中可能把將一些邏輯強化到包含可編程FPGA IP模塊的標準單元ASIC設計中,或者使用chiplet構建自定義SiP。

Xilinx提供的設備定製靈活性是三者中最小的,但迄今為止卻提供了最多的“開箱即用”產品。賽靈思(Xilinx)是FPGA多管芯集成的先驅,它使用插入

器將多個chiplets拼接在一起,目前生產了三代產品。有趣的是,Xilinx在其他人推動該戰略的同時卻放棄了該戰略。Xilinx現在將其器件的更多功能構建到一個單芯片中。這帶來了速度、成本和可靠性方面的優勢,但降低了混合匹配chiplets在自定義封裝內的集成能力。為此,Xilinx正在計劃提供大量的Versal系列產品,以期提供具有適當資源集以匹配各種類型應用程序的現成設備。

回到封裝內存,據我們所知,賽靈思和英特爾都提供了類似的封裝HBM堆棧。賽靈思表示,將會有Versal HBM系列,但尚未正式宣佈其細節,但是我們可以根據他們在其他產品系列中的支持來推測。英特爾藉助Agilex,可以將高達16GB的HBM2以及其他類型的內存資源放入其封裝中。Achronix不提供封裝內存選項,而是聲稱可使用多達8個GDDR6內存控制器,每個控制器可支持512 Gbps帶寬,從而為其器件提供了總計4 Tbps的GDDR6帶寬。這可與其他供應商提供的帶有HBM選項的產品相媲美,而且價格較低。與封裝內HBM相比,折衷方案有更大的功耗和更多的PCB設計複雜性。GDDR6的可用性可能會更快實現(考慮到圖形子系統使用的目標大眾市場),而HBM2則需要一些時間才能實現批量生產。

在對板載內存的支持,所有供應商都支持DDR4,並將支持DDR5。

英特爾Agilex繼續他們的方法,即提供強化的DDRx內存控制器(HMC,但不提供“Hybrid Memory Cube”)。英特爾使用HMC已有多年曆史,其歷史可以追溯到28納米的Altera Arria 5系列。英特爾表示,他們的FPGA集成式硬核儲器控制器有助於在 Hard PHY中實現從內核到外圍的緊密傳輸以及從外圍到內核的時序傳輸,有效地保證了時序收斂並減少了編譯時間,並減少了半速率模式下的讀寫存儲器延遲。英特爾還支持其非易失性Optane持久性內存,該內存通過非易失性技術提供類似於RAM的性能。

Xilinx Versal AI Core系列(也使用加固的內存控制器)可提供高達1.2 Tbps的DDR4帶寬和高達1.6 Tbps的LPDDR4帶寬,並支持CCIX。

有趣的是,英特爾還支持通過UPI/CXL協議對英特爾至強可擴展處理器進行低延遲/一致性內存分層訪問。我們將在以後討論集成到異構計算環境的部分中,與其他供應商進行對比,更多地討論英特爾的這一方法。

如上所述,Achronix-還利用強化的內存控制器——額外支持GDDR6。在外部存儲器中,端口數量是許多應用程序的關鍵考慮因素,因為在共享內存資源中同時執行多個讀/寫操作的能力可以消除與內存帶寬相關的性能瓶頸。

當然,除非能夠有效地將數據移入和移出,否則出色的芯片就無法完成出色的工作。在數據移動方面,FPGA是無可爭議的王者——數十年來,他們憑藉靈活的邏輯和高速I/O功能在不同的系統和協議之間橋接、移動和路由大量數據,從而生存了數十年。現在,所有這些供應商已將其最快的高速串行I/O收發器升級到了更高吞吐量的PAM4技術。PAM4為邏輯定義了四個電壓電平,而不是通常的兩個,在每個時鐘週期中將數據傳輸率提升兩倍。

Xilinx Versal ACAP支持多達44個GTY收發器(32.75Gb / s),以及多達52個GTM收發器(58Gb / s),總I/O帶寬合計約為1.31 Tbps。英特爾的Agilex系列產品則提供了十分繁多的選擇,其SerDes收發器包含在不同的“ Tile”芯片中,這些芯片可以隨應用領域的不同而變化,如8x PAM4 112 Gbps,以及48x PAM458 Gpbs。Achronix Speedster 7T提供了驚人的72x PAM4 112 Gbps的收發器。所有這些都是令人印象深刻的數字,但請記住,SerDes收發器帶來了一些最艱鉅的設計挑戰,包括板級和系統級信號完整性。它們也是芯片成本的巨大貢獻者,因此選擇帶有一組能夠滿足您的應用需求的收發器的器件值得仔細考慮。

對於快速的以太網,Xilinx Versal ACAP首次推出了該公司內部開發的新型多速率MAC,該MAC可處理多種配置,可配置為4x10GE,1x40GE,4x25GE,2x50GE或1x100GE。Versal Prime ACAP設備最多包括這些多速率MAC中的四個。英特爾Agilex包括具有PCS的硬以太網MAC和支持16 x 10 / 25GE,8 x 50GE,4 x 100GE,2 x 200GE,1 x 400GE的FEC。這最多允許4 x 400Gb以太網網絡接口連接。Achronix Speedster 7T在其7t1500中具有16個以太網通道,在7t6000中具有32個以太網通道。這分別提供了四個和八個400Gb以太網連接,並支持較低的速率。

對於PCIe,Xilinx Versal ACAP提供了1個用於加速器(CCIX)的Gen4 x16高速緩存一致性互連,可通過標準PCIe鏈路,最多4個Gen4 x8 PCIe和最多2個多速率以太網MAC進行操作。英特爾的Agilex提供PCIe Gen4 x16(每個通道高達16 Gbps)和Gen5 x16(每個通道高達32 Gbps)。Achronix Speedster最多支持2個PCIe Gen5 x16。

簡而言之,所有這些系列都秉承了大規模,靈活的I/O的FPGA傳統——這項討論僅僅觸及了表面。我們可以用幾篇文章來討論這些設備上高速接口的細微但關鍵的差別,因此花一些時間來了解打算針對應用程序需求使用的任何系列的詳細信息。考慮一下整個解決方案中需要強化的內容以及需要在LUT結構中實現或支持的內容。只購買您實際需要的帶寬,因為如果您的應用不需要它們,則沒有理由購買昂貴的高性能收發器。

在本系列的下一部分中,我們將討論處理子系統以及與外部處理器,硬件生態系統(例如使用這些設備的加速器卡)的集成,以及(也許是最重要)設計和應用開發工具支持,使我們從目標應用程序開發人員的世界中解脫出來——無論是C/C++代碼、TensorFlow、OpenCL、SystemVerilog或者一些其他的語言——變成可以為這些設備提供驚人力量的東西。

*點擊文末閱讀原文,可閱讀英文原文。

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。

今天是《半導體行業觀察》為您分享的第2126期內容,歡迎關注

半導體行業觀察

半導體第一垂直媒體

英文原文


分享到:


相關文章: