放棄Nervana推Habana上位,英特爾這次會賭對嗎?

近日一則消息讓業界譁然,英特爾宣佈:將結束在神經網絡處理器方面的工作,將重心轉向人工智能芯片,而研發 AI 芯片的核心單位就是英特爾去年重金收購的 HabanaLabs。

名噪一時的 Nervana走下神壇,Habana 在開啟另一個時代。這足以證明,為了 AI 時代的勝利,英特爾再一次“壯士斷腕”。

當然,這不是英特爾第一次下決絕之手,遙想當年,英特爾還是存儲芯片市場的老大。

從存儲芯片到CPU戰略轉折

1985 年,面對日本廠商的低價競爭,英特爾在存儲芯片市場戰陷入運營危機,業界都在懷疑英特爾是否能生存下去,以“偏執狂”著稱的格魯夫和時任英特爾首席執行官摩爾有一段經典的對話。

格魯夫問摩爾:如果我們下臺,另選一名新總裁,你認為他會採取什麼行動?

摩爾回答:會放棄存儲芯片業務。

格魯夫反問:那我們為什麼不自己動手?

於是英特爾斷然放棄了存儲芯片業務,將當時還是副業的微處理器業務扶上主位,這次轉型讓英特爾贏得了 CPU 時代的勝利。到 1992 年,英特爾成為了全球半導體市場的霸主,而當年打敗英特爾的日本企業卻不見蹤影,這次決策被格魯夫稱為“戰略轉折點”,也正是這次轉折成就了英特爾後面十年的輝煌。

痛失移動處理器市場的癥結

時間來到 2010 年,智能手機需求不斷升溫,以高通為首的一大堆移動處理器廠商迅速崛起,但是英特爾並沒有及時作出反應。直到 2011 年,英特爾才宣佈用 Atom 系列處理器進入移動芯片領域,人稱“阿童木”系列,而這個寄予厚望的產品線卻讓英特爾敗走移動處理器市場。

和其它廠商採用 Arm 架構大相徑庭,英特爾的 Atom 系列堅持採用了 x86 架構,而且 Atom Z2580 和 Android 系統出現了嚴重的兼容性問題,給消費者留下了極差的印象。讓用戶不解的是,在 2013 年,當高通和聯發科採用 28nm 推出了驍龍 801 和 MT6592 時,Atom Z2580 還在採用 32nm,x86 架構本來在功耗上就處於劣勢,落後的工藝製程讓 Atom 處理器的功耗和封裝體積問題雪上加霜;到 2015 年,主流移動處理器廠商紛紛奔向 20nm、14nm,而英特爾推出的 Atom Z3580 依然堅守在了 22nm。如果是 Fabless 廠商出現這種情況我們可以理解,但是發生在擁有代工廠的英特爾身上真是讓人大跌眼鏡。

更讓人匪夷所思的是,當時英特爾的桌面處理器已經量產了 14nm 芯片,可見英特爾在自我博弈,想要拿到移動處理器市場,也不想讓 PC 產品失去優勢。然而,魚與熊掌不可兼得,即使後面英特爾散錢式補貼平板電腦市場都沒能挽救 Atom 系列被移動處理器拋棄的命運。

隨後不甘心的英特爾又為移動處理器市場打造了兩款產品 --Broxton 和 SoFIA,Broxton 面向高端移動產品,採用全新的 Goldmont 架構、14nm 工藝製造,原計劃在 2015 年中旬推出;SoFIA 面向低端移動產品,宣稱是 Intel 首款整合有基帶芯片的移動 SoC,在 2014 年下半年推出了搭載 3G 基帶的第一代產品,原計劃在 2015 年推出的帶有 4G 基帶的 SoC,但是這兩款產品都無緣上市。

最終,在 2016 年 5 月,英特爾正式對外宣佈全面取消 Broxton 和 SoFIA 兩款凌動處理器產品線的開發,放棄移動芯片市場,此時英特爾在移動處理器芯片市場的投入已經超過 100 億美金。

筆者百思不得其解:英特爾為什麼死守複雜指令集(CISC)(也就是 x86 架構),而不選擇更適合移動處理器市場的精簡指令集(RISC)呢?直到我看到另一個故事才恍然大悟。

英特爾不是沒有擁戴過精簡指令集,早在格魯夫“執政”時代,英特爾就發現 RISC 能夠用較少的晶體管完成絕大多數計算任務,負責計算技術的工程師們也曾為其優越的性能歡欣鼓舞,甚至格魯夫還親自為 RISC 推波助瀾。

當時任英特爾高層主管 Craig Kinnie 和 Dennis Carter 找到格魯夫嚴厲指出:安迪,你不能這麼幹。放棄 CISC 上馬 RISC,將斷送商業史上最大的特許經營生意,而得到的是一大堆競爭對手。

最終,格魯夫被說服了,事後他十分感慨:我們差點兒就葬送了公司,我們的技術是行業標準。這個特許經營業務價值超過百億美元。而我卻由於一個漂亮新產品的誘惑而忘記市場,差點兒就把生意白白斷送掉。

這段故事或許就是英特爾堅守複雜指令集的最大原因,但是當年的成功經驗在移動處理器市場並沒有奏效,反而讓英特爾節節敗退,最後無疾而終。或許在移動處理器市場的失敗也會給英特爾帶來某些啟示。

AI成就英偉達,英特爾棋逢對手

轉眼到了 AI 時代,對處理複雜運算和並行運算的天然優勢讓英偉達和它的 GPU 站在了聚光燈下。雖然現在 AI 芯片已經遍地開花,創業公司不斷湧現,但是 AI 芯片市場依然是英偉達的 GPU 獨霸江湖,其產品在圖形處理方面佔有據對優勢,市場佔有率高達一半以上,英特爾可謂棋逢對手。

業界預測,AI 芯片市場規模在 2022 年將達到 352 億美元。英特爾自己也預測,2024 年 AI 芯片市場規模將超過 250 億美元。作為處理器市場的老大,英特爾自然不肯放過 AI 這塊肥肉。不過此時的英特爾已經意識到,僅憑自己砸錢研發難以追趕技術的發展,於是它選擇了通過收購快速擴張:

2016 年 8 月,英特爾以 4.08 億美元的價格收購 AI 創業公司 Nervana Systems。Nervana 成立於 2014 年,其產品是神經網絡芯片,產品架構設計很有特色,針對 AI 需要高性能內存的特點放棄了標準緩存系統,改用軟件管理內存系統。收購 Nervana 之後,英特爾將技術進行整合推出了多款 Nervana AI 芯片,主要有 Nervana NNP-T 及 Nervana NNP-I 這兩款。

2016 年,英特爾還收購了另外一家 AI 芯片公司 movidus。movidus 成立於 2006 年,花費九年時間研發了低價低功耗高性能的視覺處理器芯片——Myriad 系列 VPU,而在被英特爾收購之前,其產品就已經應用於谷歌和大疆的產品中。

2018 年,英特爾收購了 AI 初創公司 Vertex.ai。Vertex.ai 專注於開發深度學習彙編工具和相關技術。Vertex.ai 聯合創始人宗 - 恩格(Choong Ng)曾表示,他們看到性能強大的 CPU 和 GPU 存在缺乏便攜式、對開發者友好工具的問題,而他們則發現了利用新軟件 PlaidML 引擎解決針對所有平臺的兼容性和便攜性的問題。被收購後,Vertex.ai 併入英特爾 Movidius 部門,PlaidML 在 Apache 2.0 開源授權項目下使用英特爾的 nGraph 編譯器後臺繼續支持一系列硬件。

英偉達憑藉 GPU 在 AI 市場所向披靡,讓英特爾陣陣刺痛,這也激發了英特爾研發 GPU 的決心。2019 年 2 月,英特爾收購了印度初創公司 Ineda Systems,這家公司是由海德拉巴市連續創業家 Gude Dasaradha 於 2011 年創立,進行人工智能、自動駕駛和物聯網技術開發,2013 年至 2014 年間,該公司因設計和開發用於可穿戴設別的低功耗 SoC 芯片而聞名。重點在於,此次收購令英特爾從 Ineda 公司吸納超過 100 名具備圖形開發技術的工程師。英特爾表示,本次交易有助於自己打造世界級的獨立 GPU 產品。

對於 AI 市場,英特爾可謂不惜重金佈局,處處圈地,勢在必得。

Habana Labs:為了被收購而生

Habana Labs 這家公司可謂以技術取勝,在 2018 年就發佈了推理處理器 Goya,而這個產品簡直就是為了被英特爾收購而打造的。筆者第一次採訪 Habana Labs 是在 2019 年 6 月,其首席商務官 Eitan Medina 向與非網介紹,基於 Goya HL-1000 處理器的 PCIe 卡可基於 ResNet-50 推理基準實現每秒 15000 張圖片的吞吐量,延遲時間為 1.3 毫秒,功耗僅為 100 瓦,主要應用於數據中心。

讓筆者吃驚的是,Habana 的 Goya 產品直接對標的就是英偉達的 Tesla T4,從對比圖上可以看出,Goya 的性能是 Tesla T4 的三倍;從能耗上來看,比 GPU 有兩倍的優勢;在實時處理上,延遲也比 GPU 要低很多。與傳統的 CPU 對比,8 片 V100 GPU 的性能等同於 169 片傳統 CPU 的處理能力,而 3 片 Goya 處理器就可以達到 8 片 V100 的處理效果。

如果我是英特爾,看到 Goya 的性能也會心動的。

放弃Nervana推Habana上位,英特尔这次会赌对吗?

Goya 產品與 Tesla T4 的對比

在架構方面,Habana 設計了一款叫做 Tensor processor core(張量處理核心)的架構,其中設有一個矩陣乘加家族單元,這種架構讓 Goya 支持不同的神經網絡結構,可以處理不同類型的數據。大家應該還記得將 AI 推向風口浪尖的 AlphaGo,殊不知 AlphaGo 的高配版本使用了 1920 個 CPU 和 280 個 GPU,可想而知,能效是谷歌必須要解決的問題。為了設計更高效、更低能耗的芯片,谷歌選擇了張量處理器(TPU)的自主研發。Habana 的設計方法和谷歌的 TPU 出奇的一致。

當時,我就預感 Habana 將會很快成為大公司的收購目標,當我瞭解了 Eitan Medina 的創業經歷後更加篤定。Eitan Medina 在加入 Habana 公司之前有三段工作經歷,都和收購有關,他曾在 InvenSense 擔任市場營銷副總裁,後被 TDK 收購;在 Audience Inc 擔任工程副總裁,後被 Knowles 收購;在 Galileo 擔任首席技術官,後被美滿電子收購。果然,Habana Labs 於 2019 年被英特爾收購,成就了 Eitan Medina 的第四段被收購經歷。

Nervana 壯士斷腕,Habana上位對AI市場勢在必得

自從被收購以後 Nervana 就少有產品發佈,外界一直在猜測:Nervana 是不是銷聲匿跡了? 在 2019 人工智能峰會上,英特爾發佈了兩款 AI 芯片(Nervana 神經網絡處理器)NNP-T 和 NNP-I。其中,NNP-T 代號 SpringCrest,用於訓練,NNP-I 代號 SpringHill,用於推理。 NNP-T 代號 SpringCrest ,基於臺積電 16nm FF+製程,在 680 平方毫米的硅片面積上集成 270 億個晶體管,可以從頭開始構建大規模深度學習模型;NNP-I 代號 SpringHill, 基於 10nm 製程和 Ice Lake 內核,專門用於大型數據中心的推理芯片,可以加速大規模深度學習部署。

在去年年底在北京舉辦的英特爾 AI 峰會上,Nervana 團隊終於又發聲了,而且帶來了新一代了 Movidius VPU,計劃在 2020 年上半年推出,代號為 KEEM BAY。英特爾的 AI 市場營收也交出了一份不錯的答卷:35 億美金。這個數字相對未來幾年近 300 億的 AI 芯片市場,顯然還是太小,英特爾需要繼續發力。

KEEM BAY 的相關負責人介紹,其採用了專用架構,性能高度優化,針對邊緣推理,在性能上有巨大提升。在處理速度上,KEEM BAY 是英偉達 TX2 的 4 倍,而且要比 Ascend 310 快 25%;在能耗上,KEEM BAY 提供的每瓦的推理性能是英偉達 TX2 的 6 倍,每一平方毫米的推理性能是英偉達 TX2 的 8.7 倍。

KEEM BAY 的參數到底是什麼水平呢?我去查了一下英偉達 TX2 的技術參數,GPU 採用 NVIDIA Pascal 架構,配置 256 個 CUDA 內核。再看英偉達的 Tesla T4 ,擁有 320 個圖靈張量(TURring Tensor)內核 + 2560 個 CUDA 內核,而圖靈張量內核(Tensor Cores)的性能是 Pascal 的 5 倍。

按照 Habana 的介紹,Goya 的性能是 Tesla T4 的三倍,如果單從 CUDA 內核比較,KEEM BAY 對等 1024 個 CUDA 內核,Goya 處理器對等 7680 個 CUDA 內核,加上 Tensor Cores 的性能是 Pascal 架構的 5 倍,顯然 KEEM BAY 已經被秒殺了。即便是面向邊緣推理,KEEM BAY 相對 Goya 也差距太大。關於 Nervana 的兩款產品,英特爾也承認,客戶和工程師反饋後認為,Spring Hill 和 Spring Crest 的第二代 Nervana 設計,根本無法滿足高性能工作負載的需求。

物競天擇,擇優錄用。英特爾作為一個商業公司不會在一個性能達不到預期的產品上浪費過多的時間和金錢,及時收手,果斷砍掉 Nervana 是必然之舉。

結語

“只要涉及企業管理,我就相信偏執萬歲。企業的繁榮中孕育著自我毀滅的種子,你越是成功就越容易遭到對手的攻擊,他們一塊塊地吞食你的生意,最後可能一無所有。我認為,作為一名管理者,最重要的職責就是常常提防他人的襲擊,並把這種防範意識傳播給手下的工作人員。”這段話出自英特爾前 CEO 格魯夫。

是他的偏執讓英特爾在 PC 時代走向了輝煌,英特爾成立 70 多年來,一直在轉身,一直在抉擇,一直在放手,也一直在收穫,或許這次豪賭會讓英特爾贏得未來的 AI 市場。


分享到:


相關文章: