凜冬將至:從wave computing的倒下談AI加速器的未來

最近幾個月全世界都被疫情弄的焦頭爛額。在這種蕭瑟的氣氛下,wave computing倒下的消息不免又增添了一份涼意。這家AI明星創業公司從一開始就頂著耀眼的光環,曾被Frost&Sullivan評為2018年“機器學習行業技術創新領導者”,是AI領域非常有希望的獨角獸之一。之後收購老牌處理器公司MIPS的舉動也給了業界對於算力整合和通用平臺以更多的想象力。其主推的DPU從參數上來看非常驚豔。超高等效頻率(6.7GHz),超低功耗(16nm,160K PEs,400mm^2, 200W),不但具有非常強的可編程性,對比GPU這種級別的處理器,性能還有幾十倍的提升。其主推的非馮諾伊曼架構,數據驅動執行,全異步電路,以及數十萬核的靜態調度工具鏈,每一項都是業界最前沿的研究方向。因此一直是資本市場的寵兒,總共獲得超過2億美元的融資。這樣的AI明星企業也所傳出的破產申請的消息是很讓人沮喪的。加之之前Habana 20億美金賣身的消息,不免讓人感嘆,AI芯片的創業領域的風口似乎已經過去,接下來的時間會是艱難的,就像權利的遊戲經常提到的那樣,“winter is comming”。

凜冬將至:從wave computing的倒下談AI加速器的未來

[權利的遊戲影片截圖]

時間回到2016年,隨著alpha go在圍棋領域擊敗人類最優秀的棋手,加上Alexnet在圖像識別領域超越人類的準確率,標誌著機器有可能在某些領域超越和代替人類。這類算法的特點是採用深層次的圖結構進行推斷,其中包含大量的參數和計算需求,從了催生了對芯片算力的極大挑戰。傳統的CPU根本無法提供這樣的計算能力,因此具有可編程性的GPU走向前臺成為了深度學習的主力。其中NVIDIA的GPU因為其提供了CUDA這樣的通用並行編程語言而具有很強的編程性和靈活性,稱為這個領域絕對的霸主。在深度學習算法向各個領域滲透和挖掘的過程中,工程師們注意到這種特殊的運算在GPU上並不能獲得很好的性能功耗比,主要原因是GPU提供了各個精度的高並行的科學運算,而深度學習通常只需要低精度的乘累加運算,這樣並不能充分利用GPU的運算能力。因而催生出設計針對深度學習特有運算的加速器,通過犧牲通用性來獲得該領域的專用加速。Google是最初嘗試的一批公司,第一代TPU突破性的只使用INT8進行推理,捨棄了傳統的浮點運算,這樣用更小的面積和功耗獲得了更大的算力。TPU 1.0的推出可以算是AI專用芯片領域的開拓者。

凜冬將至:從wave computing的倒下談AI加速器的未來

[TPU的脈動陣列: 來自google TPU 論文]

隨著AI熱潮的興起,芯片這個資本市場的冷門領域第一次獲得瞭如此高的關注,在非常短的時間裡,大大小小的AI芯片公司雨後春筍般蓬勃發展起來,各種領域,各種規模,各種架構的都有公司涉獵。隨著AI算法在圖像和語音領域的高速發展,在這兩個方面有較大需求的互聯網和手機公司也紛紛加入戰局,比如蘋果和華為都很快推出了各自手機的神經網絡加速器,用來提高攝像和麵容識別的速度和準確度。互聯網巨頭們也不甘落後,Google,百度,阿里都在很短時間裡組建了自己的硬件設計團隊並推出了各自的加速器和編程框架。在各家的宣傳中,對GPU的性能可以說都是數十倍的提升。其中wave computing的DPU架構算是其中的佼佼者,全異步電路,數據流執行,非馮架構的眾核可重構結構,哪一項放出來都是芯片設計中的尖端方向。從他給出的測試數據來看,等效6.7GHz的頻率,連intel都要望其項背。即使wave AI芯片不成功,這些技術的研究總也是很有前景的,而這樣的公司也要走向破產申請之路,不免讓人有些疑惑,到底是技術錯了,還是市場錯了?

凜冬將至:從wave computing的倒下談AI加速器的未來

[DPU的眾核結構: 來自wave computing公開論文]

這裡我並不想質疑wave所宣揚的技術創新是否可行,而希望從最近AI芯片不利的消息中,談談對AI芯片未來發展的個人看法。隨著全球經濟不可避免的下滑和資本市場的冷卻,wave的倒下可能只是個開始,也就是說之後就是潮水褪去的裸泳時代了。從AI芯片拋物線式的發展歷程來看,目前高端AI市場最大的贏家,也很有可能是未來很久的贏家,就是NVIDIA。其他面向這個領域的玩家,包括wave在內,並沒有對NV造成實質性的威脅,其中的關鍵是無法挑戰龐大的CUDA生態,沒有良好的編程性和通用性,再高的性能也很難在實際的應用中發揮效果。在中端領域,這個市場被幾大手機廠商所瓜分,包括蘋果,華為,三星,高通,ARM。由於圖像是AI領域最成熟的方向,並且可以很明顯的提升手機攝像和識別的效果,因此各廠商都有動力開發這樣的專用加速器,並且是各自開發來保證差異性和控制力。至於低端領域,不客氣的說,AI芯片沒有低端領域,一個ARM CPU加上DSP和NEON擴展足以應付絕大多數的應用。從各場景上來看,AI芯片的創業其實是夾縫中生存,高端沒有強大生態,中端各廠家只想自己玩,低端沒有應用場景。因而大多數的AI芯片創業公司,除了開幾場發佈會,發佈一些耀眼數據,跑跑benchmark,並沒有辦法找到合適的應用場景,因此只能靠融資一輪一輪的支持,不能創造經濟價值。而目前的經濟形勢有可能是壓倒駱駝的最後一根稻草,這也可能是wave面臨的現狀。

凜冬將至:從wave computing的倒下談AI加速器的未來

[華為的全棧式架構DaVinci:來自華為昇騰宣傳資料]

AI芯片的第一輪創業中的成功者,可能只有幾家手機芯片大廠,因為目前只有這個領域才能撐起AI的專有應用,換句話講,目前只有這個領域,才算是沒有AI芯片沒法用。這可能是目前AI芯片最大的痛點,就是除了極少數的應用場景外,其他的領域中,AI芯片並沒有辦法做到不可替代,用現有的解決方案,或者現有方案的擴展就能提供足夠的算力,並沒有非常強的意願必須要換上這樣的AI專用芯片。而那些適合AI的極少數場景,比如手機,又被幾家巨頭所壟斷,他們是事實上的行業定義著,其他人沒有插足的能力。這樣就造成了目前的AI芯片叫好不叫座的尷尬場景。從這角度上來看,很多需求其實是偽需求,比如熱門的語音,這個領域的算力並不能體現一顆AI芯片的價值,最後可能還是ARM的天下。自動駕駛是少數幾個AI芯片的主場之一,這個領域對計算的速度和準確度有很大需求,而且有非常大的市場可以容納專用芯片的成本。不過自動駕駛最大的問題還是落地遙遠,雖然這個領域很熱鬧,不過實事求是的說,在實現L4完全自動駕駛之前,其他的低級別“自動駕駛”是偽需求。而從目前的發展來看,比如頭部企業特斯拉,從其自動駕駛能力仍然不足以把車成功的從停車場開出來的現狀來看,這條路似乎還很漫長。而且很可惜的是,這個賽道也很擁擠,是一個非常昂貴的競賽。

凜冬將至:從wave computing的倒下談AI加速器的未來

[特斯拉的自動駕駛芯片:來自特斯拉官方宣傳資料]

芯片從本質上來說和其他的商品並沒有不同。要能賣出去創造價值,關鍵是要有合適的場景,並且要有“非我莫屬”的殺手級應用出現,促使整個行業向包含AI芯片的方向發展。從目前來看,這樣的殺手級應用似乎還沒出現。AI行業的發展,不是靠各個會議中所提出的五花八門的模型,以及像換臉作曲打遊戲這樣的娛樂級應用,而是需要一個像手機中的“iphone”,汽車中的“特斯拉”這樣的產品出現,向大家宣佈,這就是未來,將從根本上改變人們之後的生活。而這個未來中,AI芯片是必不可少的重要一環。這也許需要時機,也需要一個像喬布斯,馬斯克這樣的開拓者。

凜冬將至:從wave computing的倒下談AI加速器的未來

[像機械姬這樣的人工智能?來自電影截圖]

從技術上來說,wave computing所面臨的的問題也許標誌著第一波AI創業者們方向性的錯誤。過份的追求性能,功耗,犧牲了通用性和編程性,造成在實際應用上的編程困難和不可移植。從整個算法領域來看,AI目前所在的深度學習也許算是一個專用領域,但從AI自身的算法看,它仍然是通用的,是需要有適應算法和模型變化的能力的,不管是圖像,語音,仿生,都不會是一個一成不變的算法,而是會一直演進下去。哪怕是成熟的算法,對於不同的應用,仍然會有各種各樣的區別,這樣都需要AI芯片能夠快速且高性能的適配。除非一個領域的算法發展為幾乎固定,比如視頻的H.264,加密的AES,這樣ASIC的固定算法就具有絕對優勢,可以不考慮編程性,否則可編程和可移植一定是最重要的因素,甚至是第一要素,而顯然AI不會是個固定的算法。因此,如何在目前的各種AI加速的硬件架構上,提供足夠好的編程性,會是之後AI芯片設計的重點。從這個角度來看,目前走在這條道路上的公司寥寥無幾。其中除了目前成功的GPGPU結構外,類VLIW的加速器也是可能的方向之一,如Habaha的Goya和Gaudi,華為的DaVinci,燧原的DTU。至於能否佔據先機,更關鍵的是完善的生態,這也是最難的一步。然而隨著Habana的被收購,不免讓人疑慮重重,這些小的AI創業公司們能否有機會成長為參天大樹,還是隻能在資本和市場的困境中無奈的選擇被巨頭併購?還是很希望有創業公司能夠成長壯大,像Google對於搜索,像阿里對於互聯網商務,像NVIDIA對於圖形和AI。芯片這個資本和技術並重的行業,需要這樣的攪局者和開拓者來打破僵局,推動它向更高更強的方向發展。

2020中國集成電路工程師線上峰會--GPU專題直播

凜冬將至:從wave computing的倒下談AI加速器的未來


分享到:


相關文章: