轉談AMD新A76構架

流水線方面,整數部分包含6個問題隊列和執行端口,共3條整數執行流水線,由1個16深度的問題隊列提供服務。其中2條整數流水線可執行簡單算術運算,1條可執行乘法、除法和CRC等複雜操作。ASIMD/浮點部分則包含2條流水線,它們由2個16深度的問題隊列服務。

在整數運算方面,Cortex A76將乘法和乘法累加延遲從Cortex A75的3個週期降低到2個週期,總吞吐量保持不變。而由於Cortex A76有3條整數流水線,在執行簡單算術運算時的吞吐量相比Cortex A75的2條流水線增加了50%。

在負責浮點和ASIMD操作的“VX”(矢量執行)流水線中,ARM也做了重要的改進。Cortex A76的浮點算術運算延遲從3個週期降低到2個週期,乘法累加也從5個週期降低到4個週期。ARM表示,相比Cortex A75,Cortex A76的雙128bit ASIMD可帶來雙倍的執行帶寬,四倍精度操作的執行吞吐量增加了一倍。

ARM還在Cortex A76上引入了第四代預讀取單元,每個核心有4個不同的預讀取引擎並行運行,查看各種數據模式並將數據加載到緩存中,以更接近完美緩存命中操作的目標。ARM在Cortex A76的緩存體系設計上沒有做絲毫妥協,在帶寬和延遲兩個方面都做到了堪稱完美的水平,據說可將緩存帶寬提高90%之多。

性能和功耗預測

綜合以上這些架構改進,ARM稱Cortex A76相比Cortex A75,每週期整數性能和浮點性能可分別增長25%和35%,再加上高達90%的緩存帶寬提升,Cortex A76的GeekBench4跑分提升了28%,JavaScript性能提升了約35%(Octane,JetStream)。

ARM給出了運行SPECint2006測試的性能對比,在運行GCC編譯的基準二進制文件時,Cortex A76在2.4GHz時便幹掉了驍龍845,能效比提升了15%。這也意味著,如果能如期達到3GHz頻率,Cortex A76的性能將和使用三星自研M3架構的全新Exynos 9810持平。

除了性能增強之外,Cortex A76的能效比也有一定提升。在750mW的內核功耗預算下,7nm的Cortex A76相比10nm的Cortex A75可提升40%性能。ARM表示,Cortex A76可實現四核持續滿載時保持滿速不降頻運行。

當然,SoC的性能並不僅僅依賴每週期性能的提升,半導體工藝所帶來的頻率紅利也非常重要,如果臺積電7nm工藝順利投產,讓Cortex A76運行在3GHz+的頻率上,性能提升將更加可觀。

不過此前ARM立下的頻率目標往往有些過於樂觀,例如最初預計Cortex A73將運行在2.8GHz,Cortex A75則為3GHz,而二者的實際最高運行頻率僅為2.45GHz和2.7GHz。對半導體供應商來說,工藝成熟度和不同流水線間的差異均會影響芯片運行頻率,壓低頻率上限是為了保證供貨量不得已而為之。

此外據雷鋒網瞭解,每種核心架構在某一工藝下,都有一個能效比最佳的頻率區間。以使用三星自研M3架構的全新Exynos 9810為例,這顆芯片的CPU大核集群在單核、雙核、四核滿載的情況下頻率分別為2.7GHz、2.3GHz、1.8GHz,功耗均為3.5瓦左右。換言之,經過逆推可知,M3核心從1.8GHz到2.3GHz,提升500MHz頻率功耗便翻了一倍,而從2.3GHz提升到2.7GHz,僅400MHz的提升就讓功耗再次翻倍。

而從1.8GHz到2.7GHz,即便性能也線性同步提升,幅度也只有50%,功耗則翻了兩番。可見越過最佳能效比區間後,衝擊高頻需要付出極大的功耗代價。而驍龍845的Kryo 385 Gold核心的表現也與之類似,在超過大約位於2.1GHz的閾值後,功耗飆升的幅度甚至比三星的M3核心猶有過之。

因此,首批使用Cortex A76架構的SoC,頻率有很大可能依然達不到3GHz。雷鋒網認為,考慮到核心架構的變化和規模的增長,其實際頻率會在2.5GHz左右,但不排除隨著後期工藝成熟或將其應用在筆記本等對功耗較為寬限的設備時可衝上3GHz+的高頻。

結論與思考

最近幾年裡,人們一直在期待能與蘋果一較高下的強勁架構。三星在不久前推出的自研架構M3雖然在性能上追近了蘋果A11,代價卻是單核3.5W的恐怖功耗。在這種情況下,ARM依然選擇穩紮穩打的進行世代更替,這次奧斯丁團隊的Cortex A76並不是性能怪獸,它充分顯示了一個平衡的微架構有多麼重要。

據悉,高通和華為海思已經在準備Cortex A76 SoC的研發和生產,我們很可能會在今年年底前看到它在商業產品中出貨。而三星方面則比較微妙,Cortex A76的性能並沒有超越M3,所以在理論上三星只需重點改善M4(如果有的話)的能效比即可。

不出意外的話,基於Cortex A76的架構將在接下來的幾年裡至少進行兩次迭代升級。ARM已經連續5年達成年度規劃目標,並且年複合增長率為20-25%,隨著移動處理器迅速接近X86處理器的性能,未來幾年的處理器市場將會更加有趣。

轉談AMD新A76構架


分享到:


相關文章: