2019年12月18日,NVIDIA GTC CHINA 2019,蘇州。
這是一屆看似並非“重磅”的GTC,因為鮮見令人血脈僨張的硬件級產品。但這是一屆從本質上卻相當“重磅”的GTC,因為英偉達全新發布的軟件與生態體系足以改變計算格局。
無論是RTX技術的新應用、Tensor RT 7、 NVIDIA DRIVE AGX Orin、HPC for Arm等技術體系,還是與騰訊、阿里巴巴、百度、滴滴等的重量級合作,都昭示著NVIDIA GPU正加速邁進通用計算領域,推進AI落地,並以生態之合力塑造全新的計算時代。正如黃仁勳所言:“NVIDIA一直致力於打造那些普通計算機解決不了的問題。”
這是一個既波瀾壯闊、又細緻入微的戰略圖譜。圍繞著計算機圖形、高性能計算以及人工智能這三個重大領域的創新,黃仁勳開啟了招牌式的演講。
計算機圖形
- RTX遊戲家族擴軍
於2018年發佈的NVIDIA GeForce RTX實時光線追蹤技術已經在多個領域開花結果。黃仁勳演示了由微軟Surface電腦運行的遊戲《我的世界》,實時模擬光線、反射以及各種材料和光之間的互動極大提升了遊戲的效能。而《光明記憶:無限》遊戲憑藉RTX的助力,一個人就開發出來了,這在以往是不可想象的。
此外,GeForce RTX的朋友圈還加入了六個好友(新遊戲),它們分別為《邊境》、《鈴蘭計劃》、《暗影火炬》、Project X、《無限法則》以及《軒轅劍柒》。
NVIDIA的雲遊戲服務也在進一步深化。由NVIDIA GPU技術賦能的騰訊START雲遊戲已經進入了測試階段,可以將遊戲體驗延展到所有性能普通的電腦之上,讓玩家在配置不足的設備上也能暢玩遊戲。這也是繼NVIDIA在北美和歐洲部分市場提供 GeForce NOW雲遊戲服務之後的又一個突破。
- 強勢進入渲染領域
黃仁勳還鄭重宣佈,世界頂級的三大主流平臺Autodesk Arnold、Chaos Group V-Ray 和 Blender Cycles都已支持NVIDIA RTX技術。而NVIDIA RTX Studio系統設備,包括筆記本電腦和臺式機,已支持超過40種創意和設計應用程序,這些應用程序均可通過“RTX On”加速,使數以千萬計的創作者能夠在工作中運用光線追蹤和AI來優化工作流程。
在電影和視覺特效領域,業界聞名的瑞雲雲端渲染平臺也宣佈配備NVIDIA RTX GPU,首批5000片RTX GPU也將會在2020年上線。針對渲染工作,RTX GPU比CPU快了12倍,原本CPU上需要花費485個小時的渲染場景,交給RTX GPU只需要40個小時。同時價格卻比CPU低了7倍之多。
NVIDIA年初發布的、作用於高質量3D動畫的Omniverse,也有了新的歷史使命,那就是應用於建築行業。它可以實時模擬太陽的光線、位置、陰影等,之前需要幾個小時來做渲染,現在用8個GPU即可實時渲染。建築師能夠在設計的時候,真真切切的感受到建築真實的樣子,Omniverse使得這一切變得非常容易。
高性能計算
- Magnum IO軟件套件
NASA在2030年會有一個登陸火星的項目,為了保證宇航員能在規定時間內安全落地,需要做多樣化的、複雜的模擬流程。NVIDIA正在做的,就是攜手NASA,共同致力於數據分析和科學模擬。而面對模擬產生的150TB的海量數據,基於DGX的全新堆棧——Magnum IO發揮了重要價值。
Magnum IO軟件套件專為解決存儲瓶頸問題而來。優化之後,多服務器、多GPU計算節點的數據處理速度比之前提高了20倍,從而可以在數分鐘內處理好以往需要數小時才能處理完畢的海量數據。同時,在NVIDIA DGX-2上藉助Magnum IO GPU直連技術,還能對海量數據進行可視化處理。
- NVIDIA Parabricks
GTC現場,黃仁勳還正式發佈了NVIDIA Parabricks基因組分析工具包,並與華大基因和愛立信建立合作關係。
Parabricks基於CUDA加速,可以用於發現變異,並能產生與GATK最佳實踐流程一致的結果,實現30-50倍的加速。與愛立信的合作則聚焦於5G,通過CUDA核心能夠提升5G vRAN性能,特別是在複雜的空間內,CUDA能夠加速解決物理空間內的信號優化的問題。
- NVIDIA HPC for ARM
擴展ARM的GPU性能是當天的一個重頭戲。NVIDIA推出了NVIDIA HPC for ARM首個參考架構,讓旗下GPU產品能配合ARM架構處理器設計的HPC進行異構計算加速。HPC for ARM可以使用不同類型的ARM HPC處理器與Volta GPU連接,每個ARM CPU最多可以連接4塊Volta GPU。配合ARM架構處理器低耗電、執行效率更高的特性,除了讓HPC進一步提升計算效能之外,更可降低能源損耗。
- TensorFlow 2.0
黃仁勳表示,作為世界上最重要的高性能計算應用,擴展TensorFlow的性能對於HPC來說是一個巨大的挑戰。而現在,TensorFlow 2.0已經可以在CUDA和ARM上使用了,而且大部分的性能已經達到了最先進的水平。
人工智能
- 百度和阿里的深度推薦應用
深度推薦系統是互聯上最重要的一個模型,能幫助我們從數不清的龐大信息中篩選出我們所需要的。一個典型應用是,從非結構化數據裡找到人們的偏好,並且把它規模化到更大的系統,這個計算量非常密集。那怎麼辦呢?黃仁勳給出的答案很簡單,從過去的CPU轉為GPU。
而互聯網巨頭們也確實是這樣做的,這裡有兩個典型案例。首先是百度,百度要打造一個AI Box深度推薦系統,用戶潛在興趣數據包含了千億維稀疏離散特徵和10TB embedding詞表,用CPU來做基本上行不通。而移到GPU上之後,訓練成本削減了90%,即GPU訓練成本只有CPU的1/10。如何把海量的數據,數萬億計的維度過濾,最後縮減到10個選擇,這就是人工智能、深度學習打造的奇蹟。
接下來是阿里巴巴。每年的雙11,對阿里巴巴的後臺系統都是一個嚴峻的考驗,今年也不例外。而在加持了NVIDIA加速計算平臺之後,支持比過去複雜6倍的模型,從而使點擊率提高10%。包括T4 GPU、cuBLAS、自定義混合精度和推理加速軟件等的部署,使得阿里巴巴的AI系統日臻完善,相比於CPU,T4將最大模型的吞吐量提高了100倍。另外,此前基於CPU,每秒查詢率只有3次,NVIDIA T4 GPU則提升到了每秒780次。
- 讓語音更智能的TensorRT 7
在智能手機、電視和智能音箱中隨處可見的數字語音工具,是我們已經非常熟悉的了。據Juniper Research估計,全世界有32.5億個數字語音助理被應用於設備中。但它們的智能化水準依然需要不斷提升,聽不懂人話、反應慢是普遍缺陷。NVIDIA第七代推理軟件開發套件NVIDIA TensorRT 7,就是為解決這一問題而來。
TensorRT 7內置新型深度學習編譯器,能夠優化和加速AI語音應用所必需的神經網絡,全球各地的開發者可將這些網絡實現自動化,並實現優異的性能和降低延遲。測算表明,相比於CPU,其會話式AI組件速度提高了10倍以上,延遲降低到實時交互所需的300毫秒閾值以下,從而實現了更加智能的AI人機交互,大大增強了與語音代理、聊天機器人和推薦引擎等應用進行實時互動的速度與精確度。
正如黃仁勳所言:“我們已進入了一個機器可以實時理解人類語言的AI新時代,TensorRT 7使這成為可能。”
- 再度飛躍的自動駕駛技術
自動駕駛應該是大家都十分感興趣的領域。黃仁勳在本屆GTC上發佈了Xavier的繼任者——NVIDIA DRIVE AGX Orin。平臺內置了全新 Orin 系統級芯片,由 170 億個晶體管組成,集成了 NVIDIA 新一代 GPU 架構和 Arm Hercules CPU 內核以及全新深度學習和計算機視覺加速器,每秒可運行 200 萬億次計算。
作為一個軟件定義平臺,DRIVE AGX Orin能夠賦力從 L2 級到 L5 級完全自動駕駛汽車開發的兼容架構平臺,助力 OEM 開發大型複雜的軟件產品系列。由於 Orin 和 Xavier 均可通過開放的 CUDA、TensorRT API 及各類庫進行編程,因此開發者能夠在一次性投入後使用跨多代的產品。
與滴滴的合作也是現場新聞之一。黃仁勳介紹到,滴滴將在數據中心使用 NVIDIA GPU 訓練機器學習算法,並採用 NVIDIA DRIVE為其 L4 級自動駕駛汽車提供推理能力。NVIDIA DRIVE能夠藉助多個深度神經網絡融合來自各類傳感器(攝像頭、激光雷達、雷達等)的數據,從而實現對汽車周圍環境 360 度全方位的理解,並規劃出安全的行駛路徑。
同時,作為自動駕駛汽車開發的行業標準,黃仁勳宣佈,NVIDIA 將在 NVIDIA GPU Cloud (NGC) 容器註冊上,向交通運輸行業開源 NVIDIA DRIVE預訓練 AI 模型和訓練代碼。通過一套 NVIDIA AI 工具,NVIDIA 生態系統內的開發者們可以自由擴展和自定義模型,從而提高其自動駕駛系統的穩健性與能力。
- Isaac SDK賦能機器人開發
全新版本的Isaac軟件開發套件(SDK)是本屆GTC CHINA 2019上首發的代表性產品。在建立統一的機器人開發平臺以實現AI、仿真和操控功能方面,Isaac SDK邁出了重要的里程碑。
Isaac SDK套件包括提供應用程序框架的Isaac Robotics Engine,預先構建的深度神經網絡模型、算法、庫、驅動程序和API Isaac GEM,用於室內物流的參考應用程序,以及提供導航功能的Isaac Sim(首個版本)。
黃仁勳表示,全新的Isaac SDK可以大大加快研究人員、開發人員、初創企業和製造商開發和測試機器人的速度,使機器人能夠通過仿真獲得由人工智能技術驅動的感知和訓練功能,從而可以在各種環境和情況下對機器人進行測試和驗證,從而節省成本。
現場還展示了一個會賣萌的Leonardo物體操縱機器人。通過模擬真實世界的學習,Leonardo學會了如何遵守物理規則,在模擬的計算部分則運用到了GPU的PhysX 5.0物理引擎。
全篇結語
我們可以清晰地看到,除了Orin芯片,今天全場2個小時的演講和展示,幾乎都是圍繞著軟件和優化來進行的。
軟件定義一切。一個很簡單的事實是,只有優異的軟件基礎,才能最大化的發揮硬件的效能。NVIDIA在軟件上的發力和功底,也將極大促進CUDA帶給GPU的大規模計算優勢和AI效能的發揮,這也是一個領導型技術企業的關鍵一環。
生態依然是熱門話題。英偉達向來十分注重與客戶和合作夥伴的熱切溝通與協同發展,本次GTC許多重量級的合作項目以及開源項目,都證明了NVIDIA在生態領域的深耕與雄厚實力。
毫無疑問,NVIDIA GPU的世界已經越來越成為通用計算的新標準和新象徵,為AI賦能幾乎涵蓋了各行各業,我們也將更多的看到NVIDIA帶來的技術昇華和應用價值。這是一幅多麼美好的畫卷!
閱讀更多 佔優智能 的文章