乾貨|加速AI發展!一文了解GPU Computing

干货|加速AI发展!一文了解GPU Computing

干货|加速AI发展!一文了解GPU Computing

英偉達的顯卡對於遊戲達人來說再為熟悉不過,並逐漸融入到我們的日常生活當中。近日,世界上第一款“光線追蹤”GPU“Quadro RTX GPU”的面世,更是被英偉達創始人兼CEO黃仁勳稱為“自CUDA以來,英偉達推出最重要的一塊GPU”。英偉達為了這塊顯卡,前後打磨了十年的時間。它的出現,將顛覆現有圖形渲染計算。

我們榮幸地邀請到了英偉達亞太區架構主管趙立威先生,他圍繞著《GPU計算前沿技術進展及其在AI領域的應用》的話題,與20餘位創業者進行了深刻交流,人工智能領域的搬磚男女都趕緊看過來吧~

一、GPU computing最新技術進展

趙立威:我非常有幸在過去的20多年間,經歷了IT從起步到大熱的整個發展過程。20年前,我在IBM,那時候我自己都沒有一臺PC機,郵件都跑在mainframe上。我有一張軟盤,它相當於我的密鑰,把軟盤插入辦公室的諸多電腦之一,我就能訪問我在主機上的郵件服務。這可以說是前PC時代。

過去這些年,計算形態從PC到移動計算到雲再到現在的人工智能。但事實上AI並不是這兩年才開始研究,幾十年前就已經開始了。那麼為什麼現在人工智能這麼火呢?它離不開三算的發展。何為三算?即算法,算力(計算力),算據(數據)。

干货|加速AI发展!一文了解GPU Computing

圖源:http://news.ikanchai.com/2017/1204/179891.shtml

那麼這三算是怎樣互相作用,然後驅動人工智能從2012年一下子發展到現在的狀態呢?這裡有一個小故事可以與大家分享。

大家可能都聽說過Alex Krizhevsky,他在博士期間設計了人類歷史上第一個真正意義上的深度神經網絡AlexNet——一共是八個學習層,包含六千萬個參數。他的導師Hinton(被稱為“神經網絡之父”)並不支持他將這個作為博士論文的研究方向,因為當時的計算都是基於CPU的計算方式,這樣的神經網絡模型訓練一次就要幾個月的時間;然後要手動調參,再重新訓練,這樣反覆下來,想要得到一個靠譜的神經網絡模型,大約需要幾十遍;運氣好的時候十幾遍的訓練次數,可能要花費數十年的時間。但是Alex作為一個典型的Geek並不放棄,在學習數學之餘他還學習了大量與編程相關的知識,其中就包括CUDA。

CUDA是NVIDIA創造的一個並行計算平臺和編程模型。它利用圖形處理器(GPU)能力,實現計算性能的顯著提高。NVIDIA是在2006年推出的CUDA,自那以後,股價從最初的7美元一路攀升到現在的260多美元。

Alex用CUDA重新對他的模型進行編程,然後買了兩塊當時非常強大的顯卡GTX580,花了6天時間訓練AlexNet,並且不斷調優和完善。後來參加了李飛飛主導的ImageNet大賽,並且獲得了當年的冠軍。AlexNet當時能夠達到的圖像識別精度,遙遙領先於第二名。大賽之後,Alex和他的導師Hinton成立了公司,這個公司幾個月以後被Google以4億美金收購。這是一個靠GPU創富的故事,可以看到,

GPU與深度神經網絡的第一次結合創造了4億美金的價值。

干货|加速AI发展!一文了解GPU Computing

英偉達™精視™ (NVIDIA® GeForce®) GTX 580

在這之後,我們經歷了近似寒武紀時期的神經網絡模型大爆發的時代。2012年之前,人們雖然一直在研究,但是沒有足夠的算力來支撐這些算法,但是新的計算方式GPU Computing的出現,支撐了同類型的神經網絡模型的訓練;從而促成了各種模型的爆發式增長,進而進入到人工智能的時代。

如今,大家可以使用Caffe、TensorFlow、Theano等等開源的深度學習平臺來進行實現自己的算法,也可以在CUDA上進行編程。人工智能研究領域的頭部公司,他們現在推薦的算法模型已經達到了相當複雜的程度,一個模型可以達到1個T甚至幾個T的規模,包含幾十億甚至上百億個參數,數據量更是可想而知。這樣的模型訓練起來難度就越發高。

因此,三算就這樣糾纏在一起,互相促進、互相提升。

大家都知道著名的摩爾定律,其內容是當價格不變時,集成電路上可容納的元器件的數目,約每隔18-24個月便會增加一倍,性能也將提升一倍。換言之,每一美元所能買到的電腦性能,將每隔18-24個月翻一倍以上。這一定律揭示了信息技術進步的速度。但是根據OPEN AI的今年年初的測算,從AlexNet出現以後,到去年年底一共大概5年的時間,在人工智能模型的訓練層面,我們對於計算力的需求提升了30萬倍。

我們都知道在摩爾定律的初期25年間,實現了性能5年10倍,25年10萬倍的提升。這是摩爾定律在CPU年代為我們帶來的計算力的提升。但是這對於人工智能模型對計算力的需求是遠遠不夠的。因此,為了滿足這種計算力的需求,我們不斷地在GPU層面打磨我們的技術,提升各方面的性能。在這樣的基礎之上,我們也看到越來越多的人開始基於CUDA去編程訓練自己的模型,Google、Facebook等也基於CUDA構建自己的開源深度學習平臺。

NVIDIA於2018年3月在GPU技術大會上推出了HGX-2 平臺,以及以HGX-2為架構的 DGX-2服務器。它是一件高密集,強性能並具有極佳的熱性能的電子產品。DGX-2架構的核心是NVSwitch內存結構,本質上,NVSwitch結構為GPU節點創建了一個512 GB的巨大的共享內存空間,以 10 千瓦的功耗,在TensorCore上達到近2Petaflops的算力。

干货|加速AI发展!一文了解GPU Computing

HGX-2 平臺的內嵌 NVSwitch 拓撲結構的框圖(圖源:NextPlatform)

所謂GPU Computing不是一個單單拼硬件的事,如何來把這些算力用到人工智能算法和實際應用場景下才是大多數人應該關注的重點。大家提到英偉達可能都覺得是一家芯片公司,但其實我們公司全球一共大概有一萬兩千人;其中一萬一千人都是工程師,在這些工程師裡,七千個都是軟件工程師,他們共同來搭建和完善基於GPU Computing的人工智能生態。

干货|加速AI发展!一文了解GPU Computing

目前來說,人工智能的應用場景比較多的集中在Consumer Internet,國內以BATJ、TMD為代表,美國主要是方佳、蘋果、微軟和Netflix等等。這些公司是人工智能領域的第一批先鋒,他們在這個領域投入了大量的資金,堆積了很多的算力,把業內最有名的博士都招到他們公司,他們的每一個服務動輒就每天上億的使用量(DAU,Daily Active User),因此又收集了大量的數據。李彥宏在2018 Create百度開發者大會上提到一個Intelligent Chasm的概念,可以理解為智能溝壑,說的是和這些頭部公司所堆積的算力以及數據相比,全球其他所有公司的算力加起來可能也就是跟他們差不多的規模,甚至還不如。這種算力和數據的差距像天塹一樣。

那麼如何把這些看似高高在上的人工智能算法和還比較昂貴的算力,以及很難獲取的數據,變得更加容易,這是我們過去已經做了的以及接下來的時間裡要去做的工作。

以TensorRT為例,NVIDIA TensorRT是一種高性能神經網絡推理(Inference)引擎,用於在生產環境中部署深度學習應用程序,應用有圖像分類、分割和目標檢測等,可提供最大的推理吞吐量和效率。TensorRT是第一款可編程推理加速器,能加速現有和未來的網絡架構。通過TensorRT的大幅度加速,服務提供商能夠以經濟實惠的成本部署這些計算密集型人工智能工作負載。

二、AI行業案例分享

人工智能比較常用的應用場景除了互聯網之外,還有自動駕駛、醫療、電信等等。

1. 推薦引擎

過去是人找信息,現在則轉變為信息找人。大家可能都用過快手或者抖音之類的小視頻APP,這些小視頻的背後,都有神經網絡算法在支撐。你在使用一個推薦引擎的同時,可能有幾十個模型在對你進行評估,五年前可能只是sensing,感知你的需求,現在是從各種維度對你進行評估,多方面平衡,不光要吸引人點擊,還要你停留足夠長的時間;而吸引人點擊和吸引人停留的算法又有很大的差別。

國內幾乎所有大的互聯網公司,都在訓練自己的推薦模型,做到千人千面。推薦對於這些公司是非常重要的,因為互聯網變現幾乎都和推薦有關,電商類不用說,食品類比如國內的快手、抖音,國外的Netflix、Hulu,資訊類的比如Google news、今日頭條,還有音樂類,社交類等等。用戶的使用又在給公司提供新的數據,可以用於訓練更有效的模型。

這一方面提升了用戶體驗,但另一方面可能造成用戶無法脫離這些產品。

干货|加速AI发展!一文了解GPU Computing

2. 醫療

在英偉達初創加速計劃的會員中,有很大一部分都是人工智能+醫療的項目。醫療項目的一大挑戰是診斷。目前來講還是很難通過深度學習來做診斷,但市場仍然很大。根據一些相關報告上的數據,對於一些慢病診斷,使用深度學習算法進行輔助之後,可以將準確率提高30%-40%,同時成本下降一半。

以視網膜掃描為例。人們常說眼睛是心靈的窗戶,事實上眼睛也是身體的窗戶,人眼的視網膜上分佈著豐富的毛細血管,通過掃描視網膜,可以檢測到人身體上的一些問題,比如糖尿病的次生災害之一就是視網膜的病變,以及心血管疾病。

在國內,能夠通過視網膜掃描來進行診斷的醫生比較少;而且在國內,部分醫生是不能下診斷的。通過深度學習技術,可以將這些醫生的經驗進行收集,從而輔助診斷。目前這項技術還很難應用到醫院裡,但是一些保險公司非常願意通過這種技術,來獲得客戶患病概率的一些信息,從而輔助制定保單金額。

3. 自動駕駛

為了進行自動駕駛的研發,英偉達有自己的一個server farm。這個server farm內有 1000臺DGX-1,具有1個E(1E=1024P=1024*1024T)的浮點運算能力,用於自動駕駛模型的訓練。一輛車在外面跑一天,會產生上T的數據量,一年可能是上P的數據量。但即使是這樣,僅僅靠實車上路收集數據也遠遠不夠,根據估算,自動駕駛車輛至少要跑10萬英里,才能勉強滿足上路的標準。就現在而言,自動駕駛的車輛脫把率並不高,Google的自動駕駛車輛大概是幾千英里需要扶一次方向盤,其他的情況也基本一樣。

我們現在的做法是把實車裡的模型拿到server farm裡,讓他在服務器裡的高度仿真的模擬環境下進行訓練,在訓練的過程中產生新的數據,然後用這些數據再去訓練新的模型。通過這種做法來嘗試加速對自動駕駛車輛模型的訓練。

干货|加速AI发展!一文了解GPU Computing

圖源:pixabay.com

在AI應用場景的分享之後,主講人趙立威還向大家詳細介紹了NVIDIA的新品Quadro RTX,它能夠幫助遊戲和電影行業實現實時的光線追蹤和渲染。最後,他以英偉達在硅谷的新辦公大樓“Endeavor”和“Voyager”作結,表達了英偉達在人工智能領域將不斷努力,並期待人工智能技術帶領人類走入未知領域的願景。

【嘉賓簡介】

趙立威,解決方案架構主管, NVIDIA 亞太區資深IT及信息化專家,具有二十餘年的IT系統實施、諮詢和管理經驗。曾就職於多家全球知名IT企業並從事技術,諮詢和管理工作,具有豐富的IT理論和實踐經驗。目前,趙立威是英偉達亞太區解決方案架構部門的主管,負責AI、Deep Learning和HPC等技術領域的解決方案開發及技術合作等工作。

干货|加速AI发展!一文了解GPU Computing

瞭解更多的創新、創業、創投、創客的內容

報名參加節目

請聯繫節目組電話:0755-89989668

來源/THU數據派、啟迪之星上海

編輯/王昕蔚 編審/郭泓斌 監製/史衛兵


分享到:


相關文章: