不再是“獨苗”,國產深度學習開源框架進入春秋戰國

至今,開源深度學習框架的 “山頭” 主要由國外科技巨頭和高校所“盤踞”。但現在,這個局面正在發生細微變化。

就在本月,繼上週一支清華團隊宣佈開源其深度學習框架 “Jittor” 之後,今天,“計算機視覺四小龍”之一曠視也開源了其深度學習框架 “MegEngine”(中文名“天元”)。以這個時間點往前追溯,還有華為在 2019 年宣佈的 MindSpore 深度學習框架,將在 2020 年第一季度全面開源。一時間,國產深度學習開源框架熙熙攘攘,在 2020 年的春天頗有進入“春秋戰國” 之勢,不復早前百度 Paddle Paddle 被稱為 “獨苗” 的景象。

不再是“獨苗”,國產深度學習開源框架進入春秋戰國

圖丨華為 MindSpore、曠視 MegEngine、清華 Jittor(來源:官方網站)

類比芯片是算力平臺,那麼深度學習框架則相當於編程生產力平臺,兩者是 AI 基礎設施的一體兩面。在中興、華為事件爆發後,有不少行業人士呼籲,基於芯片產業被美國 “卡脖子” 的教訓,作為編程生產力平臺的深度學習框架也應儘量避開國外開源版本。

如今更多的國內企業和高校加入,可以在一定程度上緩解這種擔憂。但是,一般而言,行業常態少有長期的百家爭鳴,對於國內 AI 產業和開發者來說,越來越多的國產深度學習開源框架又將如何得到“消化”?

國內企業為何競相開源自家深度學習框架

回顧深度學習的發展,其之所以是諸多 AI 技術中獲得長足發展的一大方向,得益於數據、算力、算法的到位。現在,大量基於深度學習的應用也已在現實社會中產生廣泛影響。深度學習框架的湧現亦受此推動。

技術角度上,深度學習框架可簡單理解為對底層語言和重要算法模型的封裝,更通俗易懂的說法是,它是數據、算力(芯片)、算法三者間的連接器,可以幫助快速部署 AI 算法。正如百度 CTO、深度學習技術及應用國家工程實驗室主任王海峰曾在一場活動中比喻稱:深度學習框架是“智能時代的操作系統”。

不再是“獨苗”,國產深度學習開源框架進入春秋戰國

從企業層面理解,隨著各大開源框架日益成為 AI 研究人員必備的基礎設施之一,它成為企業連接開發者的一大利器。而“得開發者得天下”,對於那些希望締造自己的 AI 生態的平臺型公司而言,更是具有戰略意義。國外科技界的實踐率先證實,包括開源深度學習框架在內的諸多開源技術,是構建 AI 創新生態的重要一環。

各家大型科技公司都希望全球開發者使用並推廣自己開發的技術棧,從整個行業的視角來看,不同科技巨頭支持的不同深度學習框架必然可以相互推動,加快創新,但對於參與這場競爭的公司來說,搶到並保持今日窗口期的領跑者地位,也意味著能夠在明日定義種種行業標準之時更有話語權。

不再是“獨苗”,國產深度學習開源框架進入春秋戰國

圖丨國外開源深度學習框架時間線(來源:互聯網)

除了更早之前起源於蒙特利爾理工學院的 Theano,大約是在 2012 年~ 2015 年期間,第一批開源深度學習框架開始湧現,包括,賈揚清在美國伯克利大學期間開發、現由伯克利大學主導的 Caffe,以及在更具標誌性的 2015 年,有谷歌 TensorFlow 宣佈開源、還有 Keras、Neon 等。而在 2016 年同一年宣佈開源的 FaceBook 的 PyTorch、AWS 的 MXNet 和百度的 PaddlePaddle,則是典型的“後起之秀”。

縱觀近年來各大排行榜, 這些開源框架不斷你來我往、摩肩接踵,儘管目前已經跑出 TensorFlow(工業部署強)、PyTorch(學術擁躉多)兩大“雙子星”,基本佔領 90% 的開發者份額,但還未至絕對壟斷的地步。PyTorch 後來居上的表現也證明了,任何一個框架都不會憑藉其設計而獲得決定性的勝利。因此,仍有新的開源深度學習框架在出現,以滿足越來越動態變化的、多元化的現實開發需求。

不再是“獨苗”,國產深度學習開源框架進入春秋戰國

圖丨 PyTorch 在學術界中日益佔據主導地位(來源:https://thegradient.pub/state-of-ml-frameworks-2019-pytorch-dominates-research-tensorflow-dominates-industry/)

在推廣自家的開源框架時,除了送出各種算力資源大禮包,各大公司還會有意無意地強調能夠將其在 AI 領域的相關積累 “無縫銜接” 到框架中。例如,華為在 2019 年的發佈會上介紹 MindSpore 時,則強調其具備全場景協同,支持端、邊、雲統一訓練和推理框架的特性,以求借助其擁有的移動終端產品優勢吸引開發者。2019 年的一次公開技術講座中,華為 MindSpore 資深架構師於璠直言,MindSpore 對標的是 Tensorflow。

對於為何有了 TensorFlow、PyTorch 等成熟 AI 框架,華為還選擇 “重複造輪子” 這個問題,徐直軍曾回應稱:“這是因為我們現在還沒有看到哪一個框架能夠真正做到支撐全場景,而華為 MindSpore 的目標就是成為這樣一個框架”。

不過在今日曠視宣佈 MegEngine 開源之前,開源深度學習框架倒是鮮見國內 AI 創企身影,似乎這並不是大型科技公司才玩得起的“遊戲”。

谷歌 TensorFlow 負責人曾表示不畏中國玩家競爭

僅從今日 MegEngine 開源發佈會的嘉賓陣容,曠視不但請來圖靈獎得主姚期智、懷進鵬院士、高文院士,還有前微軟人工智能領軍人物沈向洋站臺,足見該公司對自家開源框架的重視。

在發佈會上,曠視透露,MegEngine 是為了工業級、研究院規模的研發機構設計的算法研發基礎的組件,其核心設計理念包括希望兼顧算法研發和算法工程化的效率,同時進行訓練和推理,直接使用訓練後的模型進行推理,而且同時區別於 TensorFlow 和 PyTorch,MegEngine 將採用動靜態圖結合的設計。

這次曠視開源的深度學習框架,能為其打開怎樣的局面仍待長期觀察。正如高文院士在發佈會直播中提到,曠視的 MegEngine 宣佈開源之後,仍有大量的市場教育、高等學校的合作等技術以外的工作需要進行。

如果說未來開源深度學習框架分庭抗爭的形勢會長期存在,國內開源深度學習框架將無法避開與國外產品直接競爭。

不再是“獨苗”,國產深度學習開源框架進入春秋戰國

圖|Kemal El Moujahid(來源:谷歌)

以最典型的 TensorFlow 為例,該框架誕生於谷歌大腦團隊,除了框架本身優越性、工具鏈成熟、社區生態完備以外,還背靠谷歌雲、TPU 等強大的 AI 研發軍火庫。

2019 年上海谷歌開發者大會期間,TensorFlow 全球產品總監 Kemal El Moujahid 就曾對 DeepTech 表示,對於中國企業在開源深度學習框架上的來勢洶洶,各大公司在計算框架上取得進展的局面對整個 AI 行業而言是好事。

“我們非常樂於看到行業取得發展。現在,全球範圍來看,雖然機器學習和 AI 的普及度還處在初期階段,但是我們不能忘了最終的目標:在全球推廣普及機器學習和 AI。所以,我們現在能做的就是提供最好的應用和最好的技術平臺,讓整個應用場景可能性更多,普及速度更快”,他說。

當時他也表示,TensorFlow 在全球範圍內已經有了 4.1 千萬的下載量,超 9900 的代碼改動請求。作為最成熟的 AI 框架之一,它對中國開發者和企業來說仍頗具吸引力。

不再是“獨苗”,國產深度學習開源框架進入春秋戰國

圖丨2019年穀歌上海開發者大會發布的TensorFlow生態數據

據瞭解,搜索業務退出後,推廣 TensorFlow 是谷歌目前在中國大陸具有相當優先級的工作(谷歌甚至為 TensorFlow 開設了專門的微信公眾號且更新頗為勤快)。

談到 TensorFlow 開發團隊正在進行哪些改進工作時,Kemal El Moujahid 透露,整個 TensorFlow 團隊正在忙於 TenorFlow2.0 版本的開發,該版本的特性是易用、強大、可擴展,其中兩個具體的改進方向分別是易用性的進一步提升,以及針對端側的適配優化。

特別針對後者,Kemal El Moujahid 進一步解釋道:“我們認為移動端是機器學習未來非常重要的方向。隨著越來越多小型移動設備的普及,現在其規模已經達到約 55 億臺移動設備、2500 億個微控制單元。在此基礎之上,機器學習的應用場景非常高。在未來 TensorFlow 將重點關注這個方向,希望可以讓 TensorFlow 更加輕量化,將機器學習帶到端側更多領域”,他說。

和發力端側配套的一個判斷也來自於 5G 的崛起。Kemal El Moujahid 稱,5G 將對機器學習和 TensorFlow 的發展產生很大的影響,因為移動端是非常重要的領域。

隨著應用程序對更低延遲的要求越來越高,在端設備上運行機器學習會變得越來越重要。這一點在 TensorFlow 的多個更新版本中已經體現:配合谷歌主導的安卓移動生態,谷歌接連推出了其輕量版本 TensorFlow Mobile 和 TensorFlow Lite,以適應更多的端側場景開發需求。

事實上,不止 TensorFlow ,還有包括 PyTorch 等在內的多個國外開源深度學習框架,都已經將更新重點放在了對移動場景的支持上,預示接下來萬物互聯的 AIoT 時代,框架之爭還將進一步升級。

開源框架“戰火”,或將波及 AI 芯片

不再是“獨苗”,國產深度學習開源框架進入春秋戰國

還有一個值得關注的現象在於,越來越多的開源深度學習框架出現,會對本就如火如荼的 AI 芯片混戰帶來怎樣的影響。

畢竟,在過去的幾年,包括谷歌、百度、華為、英特爾等業內領軍企業都曾公開表示過軟硬結合將是 AI 發展的大勢所趨。越來越多的算法公司往產業鏈上游蔓延開始造芯,也多與這個判斷有關。

類似的,當深度學習繼續走向與產業結合的深水區,深度學習框架進化也在追求軟硬件結合。

同樣以谷歌 TensorFlow 作為觀察樣本。谷歌自研的 TPU(Tensor Processing Unit)不但是一戰成名的 “AlphaGo” 背後功臣,也正長期支撐著 TensorFlow 工作負載的差異化性能,從算力上幫助 ML 工程師和研究者實現更快迭代。

TPU 是谷歌為其人工智能服務設計專用芯片邁出的第一步,現在有非常多的國內外互聯網公司、算法公司嘗試“造芯”,但谷歌仍是在自研 AI 芯片上嚐到甜頭的第一批互聯網公司:谷歌基於 TensorFlow 定製了 TPU,不但加速了深度學習平臺的部署,而系統廣泛的應用,也為其不斷降低專屬 AI 芯片的成本。

不再是“獨苗”,國產深度學習開源框架進入春秋戰國

AI 芯片、深度學習框架、行業應用的關係是,深度學習框架承上啟下,下接芯片、大型計算機系統,上承各種業務模型、行業應用。當業務和應用對深度學習框架提出越來越多、越來越複雜的新需求時,傳統的芯片恐怕將難以支撐深度學習框架新能力的輸出,後者反向定製專用 AI 芯片也就成為一種可能。

除了谷歌,擁有 AI 芯片研發能力的華為在推出 MindSpore 時,也強調 MindSpore 與華為自研昇騰處理器協同優化。由此設想,不知曠視是否也會為其 MegEngine 配套了專用 AI 芯片的研發計劃。

當軟件層面的改善空間達到飽和,深度學習框架之爭演化成比拼專屬硬件能力,或許只是早晚的事情了。


分享到:


相關文章: