英特爾亮出AI殺手鐗:我們的神經網絡處理器技術很嚇人,VPU也一樣

這是我第二次見到Naveen Rao。

與初見一樣,聊到AI,他的話匣子一下被打開,一直有層出不窮的想法與理論冒出,滿腹經綸,侃侃而談。

英特爾亮出AI殺手鐧:我們的神經網絡處理器技術很嚇人,VPU也一樣

英特爾全球副總裁兼人工智能產品事業部(AIPG)總經理 Naveen Rao

與他這種溫暖的教授般的氣質形成“反萌差”的是他對極限運動的熱愛。這位40剛出頭的AI專家還是一名運動健將,以至於在滑雪、滑板、騎自行車、駕駛賽車、摔跤和打籃球的生涯中,弄傷了全部手指。或許就是這樣一位冒險家,更適合帶動人工智能,在他創立的深度學習初創公司Nervana被英特爾收購後,Nervana被迅速整合到英特爾AI核心戰略之中,現在Rao已經成為英特爾人工智能事業群(AIPG)的掌舵人。

Rao說來到英特爾,“這裡是一個開放的文化”,他很喜歡團隊合作,然而調用資源並不是一件容易的事,但英特爾在產品的市場化方面擁有豐富的經驗,強大的向心力正將公司各部門之間扭成一股勁,朝著一個目標通力協作。

在英特爾,實幹永遠比空談更重要。在英特爾首屆AI開發者大會上,由Rao率隊帶領,英特爾人工智能業務相關部門的“狠角色”集中露面,這應該是英特爾AI史上一次先例。要知道,除了英特爾內部會議,能夠在公開場合看到一群“大牛”如此乖巧的集中出現,幾乎是零概率事件。

但英特爾並沒有讓人失望。

這一次它拿出了一支配置超高的英特爾“AI銀河戰隊”(姑且叫這名吧),如下圖,從左到右依次是:

英特爾亮出AI殺手鐧:我們的神經網絡處理器技術很嚇人,VPU也一樣

Jennifer Huffstetler,英特爾數據中心事業部副總裁兼數據中心產品和存儲營銷總經理

Reynette Au,英特爾可編程解決方案事業部副總裁

Jack Weast, 英特爾無人駕駛解決方案資深首席工程師兼首席架構師

Gayle Sheppard,英特爾新技術事業部副總裁兼Saffron人工智能事業部總經理

Remi El-Ouazzane,英特爾新技術事業部副總裁兼Moviduis總經理

Jonathon Ballon,英特爾物聯網事業部副總裁

Naveen Rao, 英特爾公司副總裁兼人工智能產品事業部總經理

儘管這陣容堪比漫威“復仇者聯盟”,但依舊有“大神”在畫框外。

英特爾亮出AI殺手鐧:我們的神經網絡處理器技術很嚇人,VPU也一樣

英特爾人工智能事業部副總裁、 Nervana團隊核心成員Carey Kloss

Carey Kloss是英特爾人工智能事業群副總裁、 Nervana團隊核心成員,雖然並沒有在上圖中出現,但他向科技行者表達出對團隊的熱愛,“英特爾有迄今為止我見過的最佳的後硅培養(post-silicon bring-up)和架構分析。”也正因如此,Nervana神經網絡處理器(Nervana Neural Network Processor,NNP)才獲得巨大提升。

事實上,NNP也是英特爾醞釀已久的“殺手鐧”。在本次AI開發者大會上,Rao就爽快公開了英特爾新一代AI芯——英特爾Nervana NNP-L1000,代號為“Spring Crest”的專用人工智能芯片,而這款芯片也即將成為英特爾第一款商用神經網絡處理器產品,並計劃在2019年發佈。

儘管Rao並沒有再多透露新代AI芯片的細節,但同為Nervana創始團隊的Carey Kloss卻掌握著機密——我們當然不會放過他。就在AI開發者大會期間,科技行者與他進行了一次“接地氣”對話,原來打著“如意算盤”的英特爾還可以這樣玩。

Nervana NNP:新AI芯性能飆升3-4倍,但威力還沒完全釋放

在Rao長達1小時的主題演講中,最重磅的發佈非英特爾Nervana神經網絡處理器莫屬了,它對英特爾的意義非同小可。

如果拿去年10月首次公佈的“Lake Crest”(Nervana NNP系列初代芯片代號)做一個比喻,可以說“Lake Crest”就像一場“及時雨”,成功幫助英特爾在AI專用芯片競爭中站住腳。但英特爾卻提出了一個更大的目標,即到2020年要將深度學習訓練的性能提升100倍。而Crest家族很可能成為英特爾目標實現的最快途徑。

要知道一塊芯片的打造並非易事,如果背後沒有一支瘋狂、專注的芯片開發團隊,它也將是一塊不足掛齒的芯片。所以懂門道的內行人更專注的問題是:Nervana神經網絡處理器系列芯片背後的英特爾IC設計團隊,究竟是如何打造出這顆能在現有性能上再飆升3-4倍的“Spring Crest”?

雖然Carey Kloss口風很緊,但關於Nervana神經網絡處理器,科技行者還是在與他的聊天中,拿到以下犀利信息:

1、Lake Crest和Spring Crest的主要區別

Lake Crest作為第一代處理器,在GEMM(矩陣運算)和卷積神經上都實現了非常好的計算利用率。這不僅僅是指96%吞吐量的利用率,而是在沒有充分定製化的情況下,Nervana也在大多數情況下實現GEMM高於80%的計算利用率。當開發下一代芯片時,如果能夠保持高計算利用率,新的產品在性能上有3到4倍的性能提升。

2、Lake Crest計算利用率達到96%,為什麼到Spring Crest不升反而降了?

這是一個市場策略,把利用率適當下降。有些情況確實可以實現98%,在沒有資源衝突時,每個硅芯片都完全運行的情況下,可以達到99%甚至100%計算利用率。但英特爾想展示的是大多數情況下能能實現的利用率,所以適當調整了。

3、為什麼Nervana芯片的發佈節奏一再延期?

分為兩個階段,Nervana在2014年成立之初就開始研發Lake Crest,,當時整個團隊大概45人,正在構建一個最大的Die(硅芯片),我們開發了Neon(深度學習軟件),還構建了雲棧,這些都是小團隊所完成的。但這也是挑戰所在,小團隊成長會有陣痛,Nervana花了很長時間才把第一批產品拿出來,直到去年芯片才真正問世。關於Spring Crest為何選擇2019年年底推出,因為需要集成更多的Die(硅芯片),獲得更快的處理速度,但需要一定的時間去製造硅片,也需要硅片變成新的神經網絡處理器,這是延遲的原因。目前來看,Spring Crest正處於合理的節奏中,已具備明年取得成功的所有要素。

4、延遲給英特爾帶來了哪些不利影響?

Carey Kloss並不認為英特爾會在神經網絡處理器上處於劣勢,因為英特爾的反應速度相對較快,比如逐步轉向bfloat是一個重要因素,它是業內廣泛採用的針對神經網絡的一種數值型數據格式,很受市場歡迎,未來英特爾將在人工智能產品線上擴大對bfloat16的支持,包括至強處理器和FPGA。

5、拿nGraph與CUDA相比:沒在怕的

拋開硬件層面,英特爾還在軟件部署上加足馬力。目前,英特爾AIPG事業部正在開發名為nGraph的軟件,該軟件是一個框架中立的深度神經網絡(DNN)模型編譯器。英特爾正在把TensorFlow、MXNet、Paddle Paddle、CNTK和ONNX等深度學習框架集成在nGraph之上。

同樣是一個平臺概念,很多人喜歡拿GPU代表企業英偉達與英特爾做比較,事實上,Carey Kloss就直言了nGraph與競爭對手CUDA平臺的區別。

“nGraph與CUDA還是不一樣的。CUDA你可以理解為 nGraph的底面,我們稱之為變壓器。nGraph通過一個固定的API接收來自TensorFlow,Caffe或MXNet的輸入,然後通過圖形編譯器進行性能優化,排除一些不需要的東西,然後將其發送給CPU的MKL-DNN。所以CPU仍然使用MKL-DNN,即使在nGraph中也是如此。“不難看出,英特爾也有意把芯片開發放在統一平臺上,將nGraph打造成為開發基於所有英特爾芯片的AI應用程序的接口做統一。

相比於新一代Nervana NNP-L1000還處於研發階段,英特爾另一款專注於計算機視覺的芯片VPU實際已經商用。關於這款芯片,英特爾又寄託了怎樣的市場期望,來看另一位同樣在畫框外的大神的解答。

Movidius VPU:可能是計算機視覺領域的殺手級應用,包括Windows 10

Gary Brown是英特爾Movidius營銷主管,他的主要工作是將Movidius研發的產品買到一個好市場,把買賣做大。他對科技行者說,“任何與計算機視覺和攝像頭有關的東西都能夠用到Movidius”。

英特爾亮出AI殺手鐧:我們的神經網絡處理器技術很嚇人,VPU也一樣

英特爾Movidius營銷主管Gary Brown

在Movidius研發的芯片被稱作視覺處理單元VPU,是一種兼具計算機視覺和智能攝像頭處理器的芯片,所做的處理分為三類:第一類是ISP(圖像信號)處理,第二類是基於攝像頭捕捉技術的處理,第三類是計算機視覺和深度學習。據Gary Brown透露,目前VPU在VR產品、機器人技術、智能家居、工業攝像頭和AI攝像頭、監控和安保領域“生意”了得。

之所以廣受歡迎,無疑是VPU所具備的兩點優勢:一是能直接在本地攝像頭上運行神經網絡,與把數據傳送到雲端再發送回本地相比,延遲更低、用電量更少、時間更短,也意味著更低的帶寬和成本;另外一點則是節能技術,用前端算法降低功耗,就可以關閉大部分芯片,只運作小部分最優化的面部檢測功能,而當一張臉出現時,其他芯片則被啟動,這樣能一直保持面部監控系統開啟,對於家用攝像頭續航6個月沒問題。目前,Movidius還在最新產品Myriad X的VPU中加入神經計算引擎,能將芯片在深度神經網絡中的性能提升10倍。

“抓拍神器”谷歌 Clips相機是VPU的另一個典型應用。這塊體積小巧甚至連屏幕都沒有的相機卻可以“自動”記錄下畫面,實際上背後正是VPU在發揮作用。以AI驅動攝像頭,聽上去很酷,但這還只是VPU應用的“冰山一角”。因為英特爾對VPU還寄希望於更大的“生意”,遠遠超出了硬件範疇,十分重視與軟件巨頭微軟

Windows 10的合作。

“Windows 10可能即將成為Movidius VPU巨大市場之一。”Gary Brown變得興奮起了,“微軟最近為Windows 10研發出新的API,叫做Windows ML,代表機器學習,大家可以為Windows 10寫應用,將機器學習轉移到Movidius VPU,開發人員能夠運用Windows ML進行應用開發,比如視覺應用、視頻會議應用、智能助手進行圖片搜索,通過圖像識別功能搜索有趣的事情。”也就是說,如果在Windows 10系統中運用了Windows ML,就意味著無需一定要在CPU上運行機器學習了。

Gary Brown還表示,目前也有PC廠商和他洽談將VPU直接放入電腦的新模塊,但名字不方便透露。

除了芯片在市場“聲名遠揚”, 讓人出乎意料的是Movidius的另一個強項竟然是軟件。因為“Movidius團隊很多成員屬於開發組,硬件只是我們產品的一部分,而軟件開發者工具包包含庫、驅動、開源和對應固件,也是Movidius產品線之一”,Gary Brown還表示,英特爾新版本的軟件開發者工具叫OpenVINO,該工具包能夠幫助開發者在雲端(例如TensorFlow, MXNet和Caffe等熱門框架)創建和培訓AI模型,並將其部署到各種產品中,像Movidius與海康威視的合作就是採用這種模式。

目前Movidius的客戶有75%集中在物聯網領域,這並不稀奇。如果對Movidius稍有了解,會知道其實這家計算機視覺初創公司最早由英特爾物聯網部門在一年半前負責收購,為了輸出更全面的AI能力,現在英特爾內部各部門之間都有著蛛網般交織的關係,包括AI在物聯網的滲透,這也是英特爾最重要的業務之一,如何打這張“組合牌”?又一位大牛登場了。

英特爾AI x IoT:重點放在“智能”物體,不只是計算能力

Jonathon Ballon是英特爾物聯網事業部副總裁,擅長歸納的他,開場就拋出了大會關於物聯網內容的三條總結:

  1. 物聯網沒有一個萬能的架構,根據不同的場景有許多種架構;
  2. 不是所有的人工智能都發生在數據中心端或雲端,人工智能運行在分佈式計算架構中:從雲端、網絡到邊緣設備;
  3. 英特爾在軟件工具方面做了很大投資,英特爾相信軟件是硬件平臺實現差異性的重要因素,nGraph和OpenVINO這兩個工具的互補性,能夠讓異構架構發揮出最佳性能。
英特爾亮出AI殺手鐧:我們的神經網絡處理器技術很嚇人,VPU也一樣

英特爾物聯網事業部副總裁Jonathon Ballon

言簡意賅,正如Jonathon Ballon所言,物聯網沒有一個萬能的架構,但要如何一擊即中?英特爾似乎有獨特的思考與門路。

“我們重點放在智能物體上,不只是計算能力。”Jonathon Ballon進一步解釋,“一臺帶有芯片的設備,具有計算能力,這叫做計算設備,但這並不意味著它是智能的。當把計算設備連上網絡,把數據分離出來,這時這個設備稱為物聯網設備,但它還不一定是智能設備。物聯網設備和智能設備之間的區別是:後者有學習能力,這就是人工智能能夠發揮巨大作用的地方。”

同樣的顛覆還會發生在零售市場:英特爾與京東打造的D-MART“無人商店”,已經在多個智能門店以及智能售賣機項目中部署試用。無人商店用到的機器學習算法主要集中在知人、知貨、知場3個方向,由於涉及線上線下數據打通,將視頻等非結構化數據轉化為結構數據等,需要用到機器視覺領域CNN(卷積神經網絡)算法,智慧供應鏈方面用到的傳統機器學習算法,如SVM、統計學的線形迴歸、邏輯迴歸等。綜合考慮,京東選擇了英特爾的邊緣服務器做硬件層支持。

從醫療到零售還只看到物聯網實踐的小小縮影,事實上英特爾正在嘗試一個通用邏輯或者說方法論,將物聯網的部署在所有行業上打通。在Jonathon Ballon看來,物聯網也擁有專屬的“摩爾定律”,不同行業的IOT都會經歷三個相同階段:連接,智能以及自治,而自治階段是未來物聯網發展的終極趨勢所在。英特爾與京東、亞馬遜打造的“無人商店”就是一個完全自主運營的實例。

當談到競爭,Jonathon Ballon表示並不擔心。“英特爾的優勢在於善加利用分佈式計算架構,專注於打造端到端的解決方案,包括設備、網關、網絡、雲、數據中心等。”可以看到,不僅是AI產品組合,關於物聯網,英特爾也已經攢好“組合牌”,從設備到雲已備好了一整套完整的產品組合方案。

所以,英特爾的手上都有哪些牛X底牌?

英特爾從來都不會直接地告訴別人它的AI能力有多強,但未來你身邊的AI可能都有“Intel inside”。

就像沒聽說過Movidius VPU,但你可能知道大疆今年推出了一款具有手勢識別遙控功能的迷你無人機;不熟悉Moblieye這個名字,但你大概聽過特斯拉Autopilot的自動駕駛功能;沒研究過英特爾AI平臺,但你或許會被2020年東京奧運會的直播效果驚豔;甚至,在如今大多數人工智能硬件公司採用的芯片前,都要加一個英特爾商標。

事實上,藉由其體量的優勢,英特爾在AI硬件方面完成了深遠佈局。從訓練到推理,從服務器到終端的AI全產業鏈上,都有intel inside的身影。如果說數據洪流帶來巨大機遇和挑戰,多種多樣的應用需求需要不同的解決方案和技術來滿足,同理人工智能也是如此。紛繁複雜的工作負載也需要不同類型和特點的人工智能產品來支撐,這就需要提供更全面的企業級方案。

在人工智能策略上,英特爾實際上一直強調的是“廣度”,即對於每一種架構風格,英特爾都有一個或多個的產品組合,讓各種規模的機構都能通過英特爾開啟自己的人工智能研發。例如,英特爾正在與Novartis合作,使用深度神經網絡來加速高內涵篩選——這是早期藥品研發的關鍵元素。雙方的合作把訓練圖片分析模型的時間從11個小時縮短到了31分鐘。

英特爾亮出AI殺手鐧:我們的神經網絡處理器技術很嚇人,VPU也一樣

當然,要釋放AI潛力,僅“廣度”還是不夠的,還應該有更全面的考慮。在一年多漫長梳理與整合之後,英特爾終於拿出了一套相對完善的產品組合方案——英特爾人工智能全棧式解決方案,包括至強可擴展處理器、英特爾Nervana神經網絡處理器和FPGA、網絡以及存儲技術等;針對深度學習/機器學習而優化的基於英特爾架構的數學函數庫(Intel MKL)以及數據分析加速庫(Intel DAAL)等;支持和優化開源深度學習框架如Spark、Caffe、Theano以及Neon等;構建以英特爾Movidius和Saffron為代表的平臺以推動前後端協同人工智能發展。

這就夠了嗎?當然不是。

差點漏掉了“Loihi”。它是英特爾正在研發的神經擬態計算芯片,能夠像大腦一樣通過脈衝或尖峰傳遞信息,通過“異步激活”方式進行計算,使機器學習更有效率,同時對於計算力的需求更小。但Rao也指出,Loihi目前只是一個研究項目,是英特爾的一個重要研究方向但不是唯一方向。

“如果我們能提高的話,這項技術將成為潛力股。”

“與此同時,還有量子計算,它是創造更多計算能力的方法。”


分享到:


相關文章: