如何看待NVIDIA正式公布Turing架構顯卡？問答頭條網

2018-08-14 23:53:13 佚名

小超哥452

雖然NVIDIA正式公佈新一代的GeForce遊戲卡應該要等到下週科隆遊戲展前的“GeForce Gaming Celebration”活動，但是在昨天正式開幕的SIGGRAPH 2018，這場圖形界頂級大會上，NVIDIA是不可能空手到來的，而事實上他們昨晚確實有很多重量級的公佈，包括全新的Turing架構（注意，官博現在還沒有使用任何中文命名），包括第一張專用於光線追蹤的GPU：Quadro RTX，但是我們還是應該從它的根基：新的Turing架構開始說起。

NVIDIA的官方直播大概是早上的8：45結束的，現在還有很多細節沒有公佈出來，所以我們先來看看官方的Newsroom，首先關於Turing架構，NVIDIA對其非常有自信，稱其為自從2006年通過統一渲染架構帶來CUDA後最偉大的飛躍，所以你可想而知NVIDIA對其的期望，或者說野心。新的Turing架構很重要的一點就是混合渲染（Hybrid Rendering）來實現光線追蹤，具體來說包括引入全新的RT Core來加速光線追蹤，還有我們已經在Volta架構看到的Tensor Core來加速AI處理，當然還有光柵化，畢竟現在我們還沒有厲害到能夠拋棄光柵化的程度，所以新的Turing架構是包含多種力量的，而這種包含多方力量來實現光線追蹤的混合渲染，應該會成為日後的關鍵詞。

每次有新架構到來，我們最關心的就是微架構級別的變化：有哪些新增的特性，有哪些精簡的部分，如果說Volta架構我們開始看到Tensor Unit，那麼新的Turing架構當中最重要的就是新引入的RT Core。既然是“RT”，顧名思義就是衝著光線追蹤（Ray Tracing）來的，它的作用是用來加速處理光線在三維環境中的傳播，處理光線的速度是目前Pascal架構的25倍，同時讓GPU作為節點處理最末幀（Final Frame）的效果渲染要比將CPU作為節點的速度快30倍。

同時讓人興奮的是，自從Volta架構開始引入的Tensor Core，我們都知道它能提供遠遠高於傳統GPU的人工智能、深度學習性能，這部分性能能夠賦予我們的GPU去做很多以往沒有的工作，比如說在Turing架構當中的Tensor Core，能夠在每秒處理500萬億的張量運算，通過這部分性能，我們能實現以往無法奢望的功能，比如說新的基於深度學習的抗鋸齒技術：DLAA（Deep Learning Anti-Aliasing，萬物基於深度計算）。

最後在傳統的架構方面，Turing在我們熟悉的SM單元當中新增整數處理（Integer Unit）單元，以及新的統一緩存架構，能夠帶來目前架構兩倍的帶寬。規格方面，Turing架構能夠搭載最多4608 CUDA，並且能夠帶來最高16 TFlops浮點性能。當然這是新發布的三款Quadro RTX顯卡當中性能最強的RTX 8000而言的。

具體來說，昨晚NVIDIA共發佈三款顯卡，分別是Quadro RTX 5000\\6000\\8000，最高端的RTX 8000跟次旗艦的RTX 6000兩張顯卡在流處理器數量、張量單元數量、光線追蹤性能方面都是一致的，分別是4608 CUDA、576 TC、10 GigaRays，只有顯存存在差異，RTX 6000是搭載24GB GDDR6顯存，通過NVLink橋接可以實現48GB顯存，按照現在16Gb的顯存來看，也是很誇張的，而RTX 8000的顯存直接翻倍。“入門級”的RTX 5000則是3072 CUDA，384 TC（Tensor Cores）、6 GiagaRys，16GB GDDR6顯存。

在流處理器方面，如果是按照Volta V100的架構，那就是每組SM單元包含64 CUDA，即72組SM單元，但是72組SM單元怎麼構成GPC單元呢？過去的Volta V100是每組GPC單元包含14組SM單元，那這裡就是除不盡的，難道NVIDIA還暗藏多餘的SM單元？因為GPC單元肯定是4組、6組、8組的組成，如果是按照6組，就應該是6*14=84組SM單元，就算是按照128 CUDA/SM的構成，要麼每組GPC單元的構成已經精簡，要麼目前的RTX 8000還不是完整架構。

至少就卡本身的規格方面，目前AnandTech已經拿到部分消息，他們已經做成架構之間的對比，就是RTX 8000分別對比GV 100、P6000、M6000，我們首先能看到在核心面積、晶體管數量、CUDA數量、紋理單元數量方面對比V100的規格是有精簡的（甚至核心面積都變小），頻率提高到1730MHz，顯存頻率14Gbps，位寬384-Bit，單精度16 TFlops，最後核心代號是尚不清楚的，GT102？現在誰知道呢。

超能網

這次最意外的還是新核心Turing（圖靈）架構和gddr6顯存居然在英偉達的專業圖形卡上首發，其中的RTX（光線追蹤）技術無疑是這款顯卡最大的亮點。

儘管是採用了12nm工藝，但是Turing架構仍然比Pascal架構規模大得多，GP102和GP104分別為6組GPC和4組GPC，圖靈架構在刪除了FP64雙精度單元后，新加入了RTX單元用於處理RTX計算，實際上新款Quadro RTX的光線追蹤性能如此之強應該就是歸結於這些專用RTX單元，這和當年Fermi架構推出的“曲面細分單元”似乎有異曲同工之處，但是尚且不知道RTX單元是否也屬於CUDA核心，能否參與常規圖形運算，這些就需要以後NVIDIA提供的技術白皮書來了解了。

最強的Quadro RTX8000所用的GT102核心（暫稱）很有可能就是未來2080TI顯卡採用的核心，754的核心面積，最高4608個流處理器（很可能給不了這麼多），384bit位寬（也有可能縮減），但是作為遊戲顯卡，核心頻率和顯存頻率有望繼續提高，整體單精度運算能力應該仍然在16T左右，比1080TI高出近6T的計算性能。

至於主流高端2080和2070顯卡，我們可以參照目前最低端的Quadro RTX5000，GT104核心很可能是3072個流處理器，256bit位寬，8G-16G的gddr6顯存，如果算上更高的核心/顯存頻率，算力達到12-13T應該問題不大，所以即使是精簡版的2070，其性能應該至少也會和1080TI旗鼓相當，如果算上光線追蹤性能的話，拿自然就是秒殺老卡了。