錯過老黃演講看回放,AI 從業必看的 GTC China 最新干貨

錯過老黃演講看回放,AI 從業必看的 GTC China 最新幹貨

Orin是英偉達花費4年時間投入數十億美元打造,性能比最新一代Xavier提升7倍,算力最高可達200TOPS。

作者 | 包永剛 郭利榮

今年三月的英偉達 GTC(GPU Technology Conference)上,最低售價僅99美元可運行所有AI模型的Jetson Nano成為關注的焦點。今天,英偉達首席執行官黃仁勳(Jensen Huang)在參會人數創新高的GTC China 2019上再次發佈重磅新品——下一代SoC Orin。作者瞭解到,Orin是英偉達花費4年時間投入數十億美元打造,性能比最新一代Xavier提升7倍,算力最高可達200TOPS。

目前,英偉達已經售出15億塊GPU,它們都有相同的架構CUDA。黃仁勳表示,通過全棧優化,GPU可以實現摩爾定律的加速。

英偉達想要做的不僅是加速摩爾定律,也要推動顯示技術的創新。

错过老黄演讲看回放,AI 从业必看的 GTC China 最新干货

RTX的新進展

去年,英偉達發佈了RTX新一代GPU架構——Turing(圖靈),以及一系列基於圖靈架構的RTX GPU。黃仁勳表示圖靈架構為英偉達十多年來在計算機圖形領域最重要的創新,將光線追蹤技術引入英偉達的GPU中。發佈之後,已經有多款遊戲支持RTX,並且採用RTX技術的開發者輸倆個迅速增長。

错过老黄演讲看回放,AI 从业必看的 GTC China 最新干货

黃仁勳今天宣佈了6款支持RTX的,還展示了僅由一個人使用RTX技術製作的視頻。

除此之外,英偉達還創造出了Max-Q設計,它將超高的GPU能效和總體系統優化集於一身,可以用於輕薄的高性能筆記本電腦。

高性能的筆記本是遊戲必須可少的,但隨著雲計算的普及,雲遊戲也將越來越普及。黃仁勳在GTC China 2019上也宣,英偉達與騰訊遊戲合作推出START雲遊戲服務,該服務已從今年初開始進入測試階段。START使遊戲玩家可以隨時隨地,即使是在配置不足的設備上也能玩AAA遊戲。

光線追蹤引GPU是英偉達去年最重磅的發佈,英偉達也正在推動這項技術更多的應用。今年,“核彈”產品無疑是面向下一代汽車和機器人的Orin的發佈。

“核彈”產品——下一代的汽車和機器人技術Orin

黃仁勳在演講當中提到, 該芯片由170億個晶體管組成,凝聚著英偉達團隊為期四年的努力。Orin系統級芯片集成了英偉達新一代GPU架構和Arm Hercules CPU內核以及全新深度學習和計算機視覺加速器,每秒可運行200萬億次計算(200TOPS),幾乎是英偉達上一代Xavier系統級芯片性能的7倍。Orin計劃2022年投產。

错过老黄演讲看回放,AI 从业必看的 GTC China 最新干货

Orin可處理在自動駕駛汽車和機器人中同時運行的大量應用和深度神經網絡,達到了ISO 26262 ASIL-D等系統安全標準。

作為一個軟件定義平臺,DRIVE AGX Orin能夠賦力從L2級到L5級完全自動駕駛汽車開發的兼容架構平臺,助力OEM開發大型複雜的軟件產品系列。由於Orin和Xavier均可通過開放的CUDA、TensorRT API及各類庫進行編程,因此開發者能夠在一次性投資後使用跨多代的產品。

Orin也已經獲得了合作伙伴的支持,滴滴與英偉達一起共同推進自動駕駛和雲計算領域的發展和合作。據悉,滴滴已經選擇英偉達DRIVE作為他們的L4級的AV平臺和雲計算平臺。另外,滴滴會採用英偉達的AI技術應用,用在它們的自動駕駛車輛當中,並且也支持“滴滴雲”。

错过老黄演讲看回放,AI 从业必看的 GTC China 最新干货

5年以前很多人就說:“2020年就能夠看到自動駕駛的車輛了。”如今馬上進入2020年了,但是到現在還沒有實現這個目標,技術還在向前推進,整個業界也意識到這個事情的複雜度遠比我們想像的要高。

错过老黄演讲看回放,AI 从业必看的 GTC China 最新干货

轉移學習和聯邦學習進一步降低AI門檻

面對自動駕駛最核心的需求“安全”,英偉達開發了 “端到端平臺”,即:在數據中心中的AI。也就是說,真正技術在道路上使用之前,首先是要在數據中心進行驗證。

對於自動駕駛來說,第一步就是海量的數據收集工作。在有人駕駛的車輛上,需要安裝很多的傳感器。包括些攝象頭、雷達,它們的作用就是收集大量的數據。

一般情況下,一輛車一天在外面開6小時-8小時,每週就會收集到PB級的數據。意味著這些扯有海量的信息需要進行處理、標記、存儲、訓練,從而更好的瞭解周圍的環境,並且識別其它的車輛、車道信息等。

其實,早前基於英偉達的DRIVE結構,汽車廠商已經可以構建和部署具有功能安全性、並符合諸如ISO 26262等國際安全標準的自動駕駛乘用車和卡車。此外,英偉達也開發了一個開放的軟件平臺,包括駕駛的操作系統等。

错过老黄演讲看回放,AI 从业必看的 GTC China 最新干货

除此之外,英偉達也開發了很多“深度神經網絡”來識別各種各樣的東西。也就是遷移學習,預訓練的模型可以進行調整以適應原始的設備製造商,包括主機廠、傳感器和具體的地區要求,當然調整的自由度是有限制的。

例如:檢測路上的一些物體、路標,以及處理雷達、激光雷達。按照英偉達的說法,目前整個的這一系列軟件,現在都可以給業界開放使用。這些都是基於英偉達自主知識產權的“預訓練”模型,也是在他們的“雲”上來進行訓練的。

英偉達的策略是“深度開放”,無論是乘用車還是卡車,他們都可以對這些進行定製化。也就是說,客戶可以把自己的數據放到這些模型當中,然後基於這些模型不斷的進行優化。不過,這些都是基於TensorRT來實現的,這也能夠進一步加速這些自動駕駛公司研發的進程。

英偉達推出的另外一個技術,就叫“聯邦學習”。這項技術是極其重要的,它不僅僅是在汽車行業,在很多行業都能夠充分利用,尤其是那些對於數據隱私非常看重的行業,例如醫療。在醫療行業,很多的數據是不能夠跟其他人共享的。所以它可以利用我們的這項技術,基於他們的數據來創建各種各樣的AI模型。

“聯邦學習”最主要的功能就是能夠保證數據隱私不被侵犯。按照官方說法,無論是醫院、實驗室、汽車公司,大家都可以去開發並且訓練這些神經網絡,數據還可以保存在本地。

黃仁勳舉例道,目前很多公司都在美國和中國有往來業務,數據在傳輸方面其實是有一些限制的。運用“聯邦學習”,他們就可以保證數據還存在本地,但是可以把一些訓練和處理後的結果上傳到一些全球的服務器上。所以 聯邦學習其實對於公司之間的合作,包括各品牌之間的合作、各地區之間的合作是非常有用的,因為它能夠保證數據隱私不被侵犯。

更重要的是,這些工具讓汽車客戶能夠去針對他們自己的車型來定製化自己的軟件,這個是之前做不到的。

英偉達全新版本Isaac軟件開發套件(SDK),為機器人提供更新的AI感知和仿真功能。黃仁勳提到,在建立統一的機器人開發平臺以實現AI、仿真和操控功能方面,Isaac SDK邁出了重要的里程碑。Isaac SDK包括Isaac Robotics Engine(提供應用程序框架),Isaac GEM(預先構建的深度神經網絡模型、算法、庫、驅動程序和API),用於室內物流的參考應用程序以及Isaac Sim的第一個版本(提供導航功能)。

错过老黄演讲看回放,AI 从业必看的 GTC China 最新干货

值得注意的是,新版本引入了一項重要功能——使用Isaac Sim訓練機器人,並將所生成的軟件部署到在現實世界中運行的真實機器人中。這有望大大加快機器人的開發速度,從而實現綜合數據的訓練。

错过老黄演讲看回放,AI 从业必看的 GTC China 最新干货

GPU替換CPU,成本僅1/10,性能提升百倍

自動駕駛、機器人是AI落地的代表應用,AI技術如今在數據分析和挖掘、高性能計算中發揮著更加重要的作用,英偉達已經推出了面向訓練、雲端、終端、自動駕駛的AI平臺。AI對於擁有大量數據的科技公司尤為重要,比如推薦系統,如果沒有推薦系統,人們無法從上萬億次網頁檢索、幾十億淘寶商品、幾十億抖音視頻、各種新聞中找到自己需要的內容。

因此,一個能夠要深度理解每一個用戶,在正確時間給出正確的推薦的推薦系統極為關鍵。

百度AIBox推薦系統採用英偉達AI,100多個推薦模型被使用在百度的眾多應用中。作者瞭解到,這個系統基於英偉達Telsa v100 GPU,利用這些TB級的數據集去創建一個模型、在GPU上訓練這些數據,然後把它放到GPU的內存當中去訓練這種TB級別的數據,GPU訓練成本只有CPU的十分之一,並且支持更大規模的模型訓練。

错过老黄演讲看回放,AI 从业必看的 GTC China 最新干货

還有線上購物,今年淘寶雙十一成交額達到了2684億元,較 2018 年的 2135 億同比增長了 25.7%,這需要強大的雲計算平臺來支撐。同樣關鍵的是,雙十一5億的淘寶的用戶要從20億商品中挑選最合適的產品是一件非常困難的事情,如果一個用戶每一秒看1個商品,需要花費32年時間才能瀏覽完20億個商品。

阿里巴巴搭建的推薦系統採用了英偉達的T4 GPU,推薦系統的吞吐量得到了大幅提升。面對每秒幾十億次的推薦請求,CPU速度只有3 QPS,英偉達GPU則提升到了780 QPS,提升百倍。

错过老黄演讲看回放,AI 从业必看的 GTC China 最新干货

雖然擁有自研雲端AI芯片,但為了解決推薦系統面臨的兩大挑戰,阿里和百度都選擇使用英偉達的GPU構建推薦系統,這其中很重要的原因是系統的構建面臨兩大挑戰。一個是推薦模型及其複雜,需要處理的參數非常多,這就意味著需要非常強的計算能力,另一大挑戰是推薦系統需要進行實時計算並給出反饋。

從結果來看,使用擅長並行計算的GPU構建推薦系統比使用CPU構建推薦系統成本大幅降低或性能實現了百倍提升。。

當然,AI功能的實現並非單純來自硬件,軟件和模型的優化也非常重要,這也是實現會話式AI的關鍵。

错过老黄演讲看回放,AI 从业必看的 GTC China 最新干货

軟件優化是實現會話式AI的關鍵

業界越來越意識到,即便AI芯片算力再強,不能充分使用其算力並不能實現很好的AI功能,因此AI芯片的有效算力正成為衡量AI芯片的關鍵指標。軟硬件

結合以及軟件優化意義重大,比如在高性能計算的應用中,要使用CUDA進行全基因組測序,或用於研究畜牧業、農業和導致疾病的微生物。

英偉達今年6月也宣佈CUDA年底前支持Arm生態系統,讓基於Arm的芯片可以更多地應用於超算系統中進行更多地深度學習計算。

错过老黄演讲看回放,AI 从业必看的 GTC China 最新干货

根據黃仁勳給出的數據,GPU+Arm的硬件,加上CUDA以及TensorFlow的優化,Arm進行深度學習的性能是x86處理器性能的96%。

一個更為關鍵的軟件平臺是此前推出的計算圖優化編譯器TensorRT,去年英偉達發佈了 TensorRT5,通過優化PyTorch和TensorFlow等框架中訓練出來的AI模型,減少計算和內潤訪問,讓模型在GPU上運行的效率大幅提升。

GTC China 2019上,黃仁勳宣佈推出TensorRT 7,它支持各種類型的RNN、Transformer和CNN。TensorRT 7能夠融合水平和垂直方向的運算,可以為開發者設計的大量RNN配置自動生成代碼,逐步融合LSTM單元,甚至可跨多個時間步長今日那個融合。相比TensorRT5只支持30中變換,TensorRT 7能支持1000多種不同的計算變換和優化。

错过老黄演讲看回放,AI 从业必看的 GTC China 最新干货

Transformer一個典型的例子就是BERT,它有很多非常先進的自然語言理解的功能。RNN一多用於語音識別或者是將文本轉化成語音。這些模型和算法對於會話式AI非常關鍵,也正是TensorRT 7可以發揮作用的典型應用。

因為想要實現會話式AI,首先需要把語音轉化為文字,然後通過AI語音算法模型獲得需要的語音,並理理解其含義,再將回應合成為語音進行回覆。對話式AI需要可編程性、豐富的軟件堆棧以及低GPU延遲,基於TensorRT 7這一系列複雜的在300毫秒(0.3秒)內就能完成。

有意思的是,去年的GTC China上,黃仁勳因為現場觀眾沒能實時理解他的演講,他表示希望未來藉助AI能夠把他的英文演講實時翻譯成中文。今年的GTC China剛開場,黃仁勳就表示他今天的演講依舊會使用英文,希望未來某一天他用英文演講,但AI可以把它翻譯成任何一種聽眾需要的語言。

看來,距離這一天的到來又近了一步。

無論是雲端、終端還是高性能計算,英偉達都已經推出了對應的硬件平臺和產品,軟件優化的重要性也正在突顯,軟件定義也能大大提高AI的效率。

错过老黄演讲看回放,AI 从业必看的 GTC China 最新干货

小結

AI的競爭正變得越來越激烈,對於AI芯片公司而言,提供更高有效算力、更易用的軟件平臺無疑是吸引用戶的關鍵,因此英偉達花費數十億美金打造了下一代SoC,算力高達200TOPS。同時也推出的新一代推理優化軟件平臺Tensor RT,轉移學習、聯邦學習的方式,能更好地推動AI落地,這也是英偉達發佈更多軟件產品的原因。

同時也要看到,對於任何一家想要使用AI技術保持領先的公司而言,他們願意嘗試任何一種能夠實現最好效果,總體擁有成本最低的軟硬件方案,這是英偉達能夠說服阿里和百度使用GPU構建推薦系統的原因。

GPU的通用性搭配上更好的軟件優化顯然能夠繼續在AI的應用中發揮重要作用,而軟件定義硬件能夠讓硬件擁有更長的生命週期,但正如GTC China 2019開場視頻中所提到的AI的應用涉及工業、醫療、物流等等,黃仁勳也表示GPU不是要替代CPU,而是AI負載一個更好的選擇。

隨著算法的演進以及眾多AI軟硬件解決方案的推出,未來誰將主導市場仍然未知。

错过老黄演讲看回放,AI 从业必看的 GTC China 最新干货
错过老黄演讲看回放,AI 从业必看的 GTC China 最新干货

老黃的演講一直是一年一度 GTC CHINA 最不容錯過的精彩環節,今年的分享,他對 AI 領域的未來提出自己獨到見解與預測。AI研習社作為AI向的開發者和學生群體的聚集地,依舊對本次演講進行完整直播。


分享到:


相關文章: