“新基建”浪潮來襲 人工智能基礎設施全面升級


“新基建”浪潮來襲 人工智能基礎設施全面升級

3月4日,中共中央政治局常務委員會召開會議,提出要發力於科技端的基礎設施建設,人工智能成為“新基建”七大版塊中的重要一項。“新基建”不同於“鐵公基”傳統思路,其本質是信息數字化的基礎設施建設,用於支撐傳統產業向網絡化、數字化、智能化方向發展。那麼對於人工智能而言,“新基建”到底有何特點呢?筆者認為,與僅聚焦基礎硬實力建設的傳統基建思路不同,人工智能新基建更需要以應用需求為目標,發力軟硬協同,融合新老系統,培育全新生態。那麼在“新基建”浪潮的背景下,人工智能基礎設施應該建什麼、怎樣建?

建什麼:聚焦算力提升,培育協同生態

當前,摩爾定律失效,算力需求增速已經遠遠超過了算力供給能力。人工智能所需的基礎算力具有獨特性。因此,人工智能新基建的核心是構建專用設施,填補算力不足,同時應在泛在、融合的發展趨勢下,構建軟硬件協同、新老系統協同、各個行業協同的產業新生態。

一是繼續夯實通用算力基礎。

當前算力供給已經無法滿足智能化社會構建,根據OpenAI統計,從2012年至2019年,隨著深度學習“大深多”模型的演進,模型計算所需計算量已經增長30萬倍,無論是計算機視覺還是自然語言處理,由於預訓練模型的廣泛使用,模型所需算力直接呈現階躍式發展。據斯坦福《AI INDEX 2019》報告,2012年之前,人工智能的計算速度緊追摩爾定律,算力需求每兩年翻一番,2012年以後,算力需求的翻番時長則直接縮短為3、4個月(如圖1所示)。面對已經每過20年才能翻一番的通用計算供給能力,算力捉襟見肘已經不言而喻。

“新基建”浪潮來襲 人工智能基礎設施全面升級

圖1 深度學習算力遞增示意圖(來自《AI INDEX 2019》)

二是全面提升專屬計算能力。經過近兩年的研究及應用實踐沉澱,產業界逐漸發現以機器學習為代表的人工智能計算具有獨特性,具體表現在3個方面:第一就是機器學習計算大部分場景僅需要低精度計算即可,經過推測,一般應用場景下8比特即可滿足95%以上需求,無需FP32、FP16等高精度計算;第二就是機器學習計算只需要很小的操作指令集,在過去40年中開發的眾多使得通用程序能夠在現代CPU上以高性能運行的機制,例如分支預測器、推測執行、超線程執行處理核、深度緩存內存層次結構等,對於機器學習計算來說都是不必要的,機器學習只需要高性能運行矩陣乘法、向量計算、卷積核等線性代數計算即可;第三就是分佈式特性,隨著模型不斷增大,深度學習“大深多”模型已經無法在單片芯片完成計算,多芯片多場景的異構計算需求使得機器學習計算必須考慮分佈式的計算通信以及計算任務的協同調度,實現密集且高效的數據傳輸交互。

三是提前佈局系統協同生態。

基於對產業界解決方案的梳理分析,筆者對於人工智能工程發展態勢有如下研判:為了更好滿足應用泛化的需求,未來人工智能應用及產業發展將呈現多平臺多系統協同態勢,以實現更為廣泛的賦能。可以看到,當前階段,人工智能的主要賦能方式還是通過通用平臺,以聚合提供人工智能基礎技術能力的方式進行賦能,面向端側的一些成熟應用場景也出現了軟硬一體的端側應用系統,如自動駕駛平臺、智慧安防攝像頭、基於智能語音語義的智能音箱、終端翻譯機等。但是通用平臺無法實現廣泛賦能,目前市面上的端側應用也是功能單一且能力固化。

在通用領域,通用平臺將進一步分化為提供人工智能基礎能力的基礎平臺和融合行業基礎應用的行業平臺兩個方向(如圖2所示)。實際上,現在阿里的城市大腦、騰訊的醫療優圖等平臺,就已經開始呈現出從基礎通用功能平臺向行業應用能力平臺演進的態勢。

在專用領域,現在的端側應用無論是功能還是可擴展性上都遠遠達不到實際的泛化應用需求,因此未來面向泛化應用將呈現專用系統這個形態,專用系統最大特點是它不僅僅是端側應用的軟硬件固化,而是通用平臺、行業平臺和端側應用的協同組合,以軟硬一體的方式實現具體應用的功能定製和擴展。這種工程發展態勢將對產業生態產生巨大影響,現在談及的人工智能芯片和框架,其實都屬於通用平臺和端側應用範疇,其生態主體是提供人工智能技術的科技企業,而到了專用系統階段,系統協同將成為主流,融合通用能力、行業能力、業務邏輯的專用系統將由垂直行業來牽頭打造,人工智能的生態主體也將逐漸變成人工智能技術的使用者,即各個垂直行業的傳統企業。

“新基建”浪潮來襲 人工智能基礎設施全面升級

圖2 人工智能未來發展態勢分析

怎樣建:構建三大能力,抓住機遇窗口

在此背景下,人工智能基礎設施建設應當建設以下3方面能力。

一是建計算加速能力。首先是建設面向訓練及推理的計算芯片。隨著人工智能融合賦能廣度和深度的不斷加強,不同場景應用將提出不同算力需求,以物聯網、移動終端、安防和自動駕駛為代表的專用端側推斷芯片百花齊放,人工智能正式進入算力定製化時代。為更好解決當前訓練算力昂貴、推理計算不足的局面,應聚焦功能多元化、架構多元化的人工智能基礎設施建設,針對性補充機器學習專屬操作計算能力,面向數值計算並行、數據跨域交換等進行攻關建設,積極探索多元化架構,以類腦計算、量子計算範式為突破口,實現機器學習計算能力加速。

其次是全面構建面向深度學習計算加速的理論及工程體系,全面涵蓋從算法頂層、編譯器,到體系結構等方面的加速理論及工程實踐能力,以大規模分佈式學習需求為指引,優化算法實現、打造深度學習編譯器,探索體系結構與硬件的最優實踐。

二是建計算泛在能力。端側是人工智能最終應用的落地點,端側既是數據的生成端,也是數據的使用端,需要構建能夠滿足海量不同端側應用場景下的計算支撐能力。端側由於受到實時性、硬件能力、功耗等多種限制,需要針對人工智能模型實現不同層面的優化,全面提升端側的數據計算、採集及傳輸能力,綜合考慮傳感器、端側芯片、端側軟件框架、網絡架構演進、數據中心協同等關鍵因素,構建能夠實現機器學習模型訓練、部署及動態更新的雲端協同算法及工程實現能力,打造堅實的泛在計算基礎。

三是建協同生態能力。如圖2所示,未來人工智能通用平臺、行業平臺以及專用系統將呈現三大協同態勢,需要抓住窗口期,全面建設全新的系統協同能力。首先是構建3個系統間的協同能力。通用平臺、行業平臺以及面向具體應用的專用系統之間的功能界定將越來越明確,相關功能將呈現模塊化特性,並且高度互補,以實現深度協同。

其次是構建專用系統的軟硬協同能力。面向應用的專用系統為滿足業務實時響應要求,除了需要將專屬定製算力芯片進行部署外,還需要在軟件層面實現兩項功能:一是實現軟件與定製芯片的高度耦合,以達到性能最優;二是軟件需要與垂直行業平臺及通用平臺做好高效對接,保證調用所需平臺功能的實時性;三是構建行業協同能力,面向行業賦能的行業平臺將在通用平臺基礎上,抽取行業業務邏輯,沉澱行業服務能力,實現與行業已有業務系統的無縫對接。值得注意的是,行業平臺由其業務屬性主導,未來行業平臺的建設主體一定是由垂直行業來主導構建的。


分享到:


相關文章: