如何看待NVIDIA正式公布Turing架構顯卡?

小超哥452


雖然NVIDIA正式公佈新一代的GeForce遊戲卡應該要等到下週科隆遊戲展前的“GeForce Gaming Celebration”活動,但是在昨天正式開幕的SIGGRAPH 2018,這場圖形界頂級大會上,NVIDIA是不可能空手到來的,而事實上他們昨晚確實有很多重量級的公佈,包括全新的Turing架構(注意,官博現在還沒有使用任何中文命名),包括第一張專用於光線追蹤的GPU:Quadro RTX,但是我們還是應該從它的根基:新的Turing架構開始說起。

NVIDIA的官方直播大概是早上的8:45結束的,現在還有很多細節沒有公佈出來,所以我們先來看看官方的Newsroom,首先關於Turing架構,NVIDIA對其非常有自信,稱其為自從2006年通過統一渲染架構帶來CUDA後最偉大的飛躍,所以你可想而知NVIDIA對其的期望,或者說野心。新的Turing架構很重要的一點就是混合渲染(Hybrid Rendering)來實現光線追蹤,具體來說包括引入全新的RT Core來加速光線追蹤,還有我們已經在Volta架構看到的Tensor Core來加速AI處理,當然還有光柵化,畢竟現在我們還沒有厲害到能夠拋棄光柵化的程度,所以新的Turing架構是包含多種力量的,而這種包含多方力量來實現光線追蹤的混合渲染,應該會成為日後的關鍵詞。

每次有新架構到來,我們最關心的就是微架構級別的變化:有哪些新增的特性,有哪些精簡的部分,如果說Volta架構我們開始看到Tensor Unit,那麼新的Turing架構當中最重要的就是新引入的RT Core。既然是“RT”,顧名思義就是衝著光線追蹤(Ray Tracing)來的,它的作用是用來加速處理光線在三維環境中的傳播,處理光線的速度是目前Pascal架構的25倍,同時讓GPU作為節點處理最末幀(Final Frame)的效果渲染要比將CPU作為節點的速度快30倍。

同時讓人興奮的是,自從Volta架構開始引入的Tensor Core,我們都知道它能提供遠遠高於傳統GPU的人工智能、深度學習性能,這部分性能能夠賦予我們的GPU去做很多以往沒有的工作,比如說在Turing架構當中的Tensor Core,能夠在每秒處理500萬億的張量運算,通過這部分性能,我們能實現以往無法奢望的功能,比如說新的基於深度學習的抗鋸齒技術:DLAA(Deep Learning Anti-Aliasing,萬物基於深度計算)。

最後在傳統的架構方面,Turing在我們熟悉的SM單元當中新增整數處理(Integer Unit)單元,以及新的統一緩存架構,能夠帶來目前架構兩倍的帶寬。規格方面,Turing架構能夠搭載最多4608 CUDA,並且能夠帶來最高16 TFlops浮點性能。當然這是新發布的三款Quadro RTX顯卡當中性能最強的RTX 8000而言的。

具體來說,昨晚NVIDIA共發佈三款顯卡,分別是Quadro RTX 5000\\6000\\8000,最高端的RTX 8000跟次旗艦的RTX 6000兩張顯卡在流處理器數量、張量單元數量、光線追蹤性能方面都是一致的,分別是4608 CUDA、576 TC、10 GigaRays,只有顯存存在差異,RTX 6000是搭載24GB GDDR6顯存,通過NVLink橋接可以實現48GB顯存,按照現在16Gb的顯存來看,也是很誇張的,而RTX 8000的顯存直接翻倍。“入門級”的RTX 5000則是3072 CUDA,384 TC(Tensor Cores)、6 GiagaRys,16GB GDDR6顯存。

在流處理器方面,如果是按照Volta V100的架構,那就是每組SM單元包含64 CUDA,即72組SM單元,但是72組SM單元怎麼構成GPC單元呢?過去的Volta V100是每組GPC單元包含14組SM單元,那這裡就是除不盡的,難道NVIDIA還暗藏多餘的SM單元?因為GPC單元肯定是4組、6組、8組的組成,如果是按照6組,就應該是6*14=84組SM單元,就算是按照128 CUDA/SM的構成,要麼每組GPC單元的構成已經精簡,要麼目前的RTX 8000還不是完整架構。

至少就卡本身的規格方面,目前AnandTech已經拿到部分消息,他們已經做成架構之間的對比,就是RTX 8000分別對比GV 100、P6000、M6000,我們首先能看到在核心面積、晶體管數量、CUDA數量、紋理單元數量方面對比V100的規格是有精簡的(甚至核心面積都變小),頻率提高到1730MHz,顯存頻率14Gbps,位寬384-Bit,單精度16 TFlops,最後核心代號是尚不清楚的,GT102?現在誰知道呢。


超能網


這次最意外的還是新核心Turing(圖靈)架構和gddr6顯存居然在英偉達的專業圖形卡上首發,其中的RTX(光線追蹤)技術無疑是這款顯卡最大的亮點。

儘管是採用了12nm工藝,但是Turing架構仍然比Pascal架構規模大得多,GP102和GP104分別為6組GPC和4組GPC,圖靈架構在刪除了FP64雙精度單元后,新加入了RTX單元用於處理RTX計算,實際上新款Quadro RTX的光線追蹤性能如此之強應該就是歸結於這些專用RTX單元,這和當年Fermi架構推出的“曲面細分單元”似乎有異曲同工之處,但是尚且不知道RTX單元是否也屬於CUDA核心,能否參與常規圖形運算,這些就需要以後NVIDIA提供的技術白皮書來了解了。

最強的Quadro RTX8000所用的GT102核心(暫稱)很有可能就是未來2080TI顯卡採用的核心,754的核心面積,最高4608個流處理器(很可能給不了這麼多),384bit位寬(也有可能縮減),但是作為遊戲顯卡,核心頻率和顯存頻率有望繼續提高,整體單精度運算能力應該仍然在16T左右,比1080TI高出近6T的計算性能。

至於主流高端2080和2070顯卡,我們可以參照目前最低端的Quadro RTX5000,GT104核心很可能是3072個流處理器,256bit位寬,8G-16G的gddr6顯存,如果算上更高的核心/顯存頻率,算力達到12-13T應該問題不大,所以即使是精簡版的2070,其性能應該至少也會和1080TI旗鼓相當,如果算上光線追蹤性能的話,拿自然就是秒殺老卡了。

功耗方面,官方給出的GT102只有225W。GT104只有180w。這麼看並不高,當然這是說的專業卡,遊戲卡如果頻率提升的話,功耗可能還會增加,但是在核心規模增大不少的情況下,能效比仍然不錯。

綜合看來,GTX20這一代顯卡的性能提升應該不小,儘管工藝僅僅是從16nm升級到12nm,但是這次的Turing架構規模增大了很多,還有RTX和nvlink等技術的引入,難怪黃仁勳稱這是一次堪比當年G80(8800GTX)顯卡的變革。


分享到:


相關文章: