乾明 邊策 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
時局如此,國產AI框架雄心更盛。
氣勢更足、功能更新力度更大、開發者羊毛更豐厚……而且新發布還不是全部,已獲得的成績也相當亮眼:
先用AI算法為中國傳統產業節省了1個億。
這就是百度旗下AI開源框架飛槳(PaddlePaddle),剛剛秀出的肌肉。
2016年開源至今,飛槳目前有150萬AI開發者,超過6.5萬企業用戶,在定製化訓練平臺上發佈了16.9萬個模型。
儼然中國第一大深度學習開源平臺。
並且形勢所迫,自主可控也成為AI框架等基礎平臺發展要求之一。
所以在此次飛槳更新發布中,也無處不透露著“國家隊”擔當。
在採訪中,百度方面透露,飛槳不僅是完全自主知識產權的深度學習平臺,而且在分佈式訓練的性能以及易用性上,都超過了國內外競爭對手。
那麼接下來如何實現更多場景、更全面地同場競技優勢?
此次的九大新產品、上億新羊毛,以及進一步產業落地,就更值得關注。
九大新產品都是啥?
在“WAVE Summit+”2019深度學習開發者秋季峰會上,飛槳迎來全面升級。
百度CTO、深度學習技術及應用國家工程實驗室主任王海峰,率先登臺分享最新思考,他說:
深度學習正在推動人工智能進入工業大生產階段,具有很強的通用性,同時具備了標準化、自動化和模塊化的基本特徵,推動人工智能技術從實驗室走向產業,並且越來越大規模使用起來。而深度學習技術和平臺也在不斷髮展,在未來的時間裡也將繼續發揮重要作用。我們秉承開源開放的理念,把飛槳平臺開源開放,與所有開發者一起,推動科技發展、產業創新和社會進步。此次飛槳一共有9大產品全新發布:包含一個模式、一個端側推理引擎、四大產品開發套件,三個工具組件。
具體詳情如下:
首先,一個模式,指的是飛槳Master模式。
百度AI技術平臺體系執行總監、深度學習技術及應用國家工程實驗室副主任吳甜介紹說:
飛槳是一個源於產業實踐,與產業共進的深度學習開源開放平臺。未來,飛槳將持續發展超大規模分佈式計算、異構計算能力,定位於全硬件平臺支持、端雲邊結合,為應用場景提供面向場景的端到端套件,構建融合數據和知識的預訓練結合遷移學習的Master開發模式,為開發者提供最強大的生產平臺和基礎設施,加速產業智能化。核心是依靠依靠百度的強大算力,提升開發者在部署模型時的移動性。
具體來說,開發者只使用自己的少量標註數據,加上飛槳的遷移學習工具,就能將自己的算法模型快速部署到自己的應用場景中。
帶來的直接影響,是面向產業場景平臺開發時,降低工作量,提升模型的準確度、可靠性。
其次,一個端側推理引擎,指的是Paddle Lite 2.0。
這一輕量級深度學習推理框架,在今年8月份正式發佈。
這次的升級中,專注易用性,提供了預測到部署完整工具鏈,只需要7行代碼調用Resnet50,也支持極致輕量級部署。
硬件支持也更加廣泛,移動端支持8種主流硬件,新增華為NPU和邊緣設備FPGA支持,寒武紀、比特大陸等國產硬件的支持也在路上。在架構設計上對硬件擴展也更加友好。
最後是性能,百度深度學習技術平臺部總監馬豔軍,現場放出了與其他幾家主流框架的性能對比圖,基本上都是“吊打”狀態:
△Paddle Lite 2.0在推理延遲上遠遠低於其他推理框架
第三,四大面向場景的端到端開發套件,也是飛槳體系中完全新增的模塊。
覆蓋語義理解、圖像分割、目標檢測,以及個性化推薦。
包含ERNIE 2.0,一個基於持續學習的語義理解預訓練框架,號稱在16箇中英文任務全面超越對標產品。
核心亮點在於,新構建的預訓練任務類型可以無縫的加入訓練框架,持續的進行語義理解學習。
還有PaddleSeg,產業級圖像分割庫,提供了18個預訓練模型,覆蓋了DeepLabv3+, U-Net, ICNet三類主流的分割模型。
通過統一的配置,幫助用戶完成從訓練到部署的全流程圖像分割應用。
以及目標檢測庫PaddleDetection,已集成60+預訓練模型。目的是為工業界和學術界提供易使用的目標檢測模型。
在這個庫中,飛槳還提供了許多目標檢測小模型,方便給移動端設備使用。
此外新增的套件,是用於個性化推薦的ELASTIC CTR,這一套件源自於百度的產業實踐。
可以實現分佈式訓練CTR預估任務和Serving流程一鍵部署,提供了端到端的CTR訓練和二次開發的解決方案。
最後,三大發布,都聚焦在深度學習領域前沿的工具組件:
PALM,多任務學習框架。
其中內置了模型backbone(BERT、ERNIE等)、常見的任務範式(分類、匹配、序列標註、機器閱讀理解等)和數據集讀取與處理工具。
功能亮點在於易用性,對於典型的任務場景,幾乎無需書寫代碼便可完成新任務的添加。
對於特殊的任務場景,用戶可通過對預置接口的實現來完成對新任務的支持。
PGL,圖神經網絡框架。
提供了一系列的Python接口用於存儲/讀取/查詢圖數據結構,並且提供基於遊走(Walk Based)以及消息傳遞(Message Passing)兩種計算範式的計算接口。
利用這些接口,可以搭建最前沿的圖學習算法,結合飛槳核心框架,就基本能夠覆蓋大部分的圖網絡應用,包括圖表示學習以及圖神經網絡。
現在,PGL已有13個圖學習模型,涵蓋圖神經網絡和圖表示學習的主流模型。
PaddleFL,聯邦學習框架。
其能力在於複製和比較不同的聯邦學習算法。
在PaddleFL中,還提供了很多聯邦學習策略及其在計算機視覺、自然語言處理、推薦算法等領域的應用,在部署大規模分佈式集群中部署聯邦學習系統時,也較為容易。
此外,伴隨著這次1.6版本發佈,飛槳還有12項產品重要升級。比如:
- 提供更多的算子庫、簡單高效的API接口、完善的文檔內容,全面提升易用性。
- 升級輕量級模型結構自動搜索PaddleSlim,增加了基於硬件搜索等能力,打通訓練、壓縮和部署全流程。
- NLP、CV、推薦系統、語音等各大基礎模型庫的模型,從原來的60+到了100+。這其中有多個在AI競賽中奪冠的算法模型,比如在EMNLP獲得了10項閱讀理解項目冠軍的D-Net。
- Paddle Hub,新增了超參優化Auto Fine-tune功能,預訓練模型數量大幅增加,支持飛槳Master模式。
- 深度強化學習框架PARL並行能力升級,支持進化算法。
- Paddle2ONNX和X2Paddle升級,飛槳和其他框架的模型互轉更加方便。
聚焦產業場景,上億新羊毛待薅
所以上述新發布究竟夠不夠競爭力?
自飛槳開源以來,作為深度學習框架,經常被人拿來與PyTorch、TensorFlow兩大框架進行對比。
但時至今日,飛槳官方認為已經不能再單純以AI框架視之了。
他們更願意定位自稱:深度學習開源平臺。
以百度多年的深度學習技術研究和業務應用為基礎,集深度學習核心框架、基礎模型庫、端到端開發套件、工具組件和服務平臺於一體。
在接受量子位採訪時,吳甜解釋了這一定位背後的考慮:“不同的AI框架都有其相應的發展規劃,這就是飛槳選擇的發展路線。”
現在,百度對外宣稱的飛槳四大領先技術時,框架只是其中之一。
而且如今談AI發展,不談落地都顯得太虛。
於是大會主題演講中,飛槳也重點分享了發展至今的側重點與發力點:產業。
因為產業之大,轉型之需,AI的降本增效作用簡直再明顯不過。
在發佈會舉辦前夕,百度還專門發佈了一個名為“看中國算法工程師如何手動省出1個億”的視頻。
其中在農業、工業製造、質檢和電力搶修等方面,AI算法都在幫助傳統產業降本增效。
先節省一個億,這是飛槳已經完成的小目標。
但AI發展,產業場景也已經是各大人工智能平臺服務供應商的必爭之地,接下來如何面對這種日益白熱化的競爭?
飛槳透露的打法是:放羊毛、建生態,與開發者和傳統產業一起贏。
一手抓開發者培養和教育。
比如百度響應教育部產學研合作號召,在全國開展深度學習師資培訓班,有效地彌補了國內高校AI教師缺口。
在一年半的時間裡,飛槳已成功舉辦8期培訓,培養了1000多個AI專業高校教師,從教育環節開始,讓計算機學生從接觸飛槳,將來散落到產業界才能遍地開花。
產業界還有“黃埔學院”,學術界與高校組建聯合實驗室,飛槳已經和西交、中科大、南大、浙大、大連理工合作,人才聯合培養。
另一手給福利。
在今日大會發布最後,飛槳也發佈了最新生態激勵計劃:
- 免費開放10多個AI課程;
- 支持100多所重點高校教學培訓;
- 為1000多個企業轉型提供助力計劃;
- 還有百萬級的AI競賽獎金和億元級GPU算力資源支持。
- 不過,這兩手效果如何、究竟夠不夠硬,還得經受時間和實踐檢驗。
當然還得經受激烈競爭檢驗。如今機器學習的框架之爭,全球範圍內已經淪為TensorFlow和PyTorch兩家的較量,要從這兩家手中分一杯羹,僅僅有產業界的支持是遠遠不夠的。
但飛槳現在也算在國內擁有民心和祝願。
在活動現場上,一則這樣的留言格外醒目,或許也是2019年潮水方向裡的小小注腳:
還是得支持國產深度學習框架啊,免得國外框架壟斷,又要跟電腦操作系統和芯片一個結局。
所以,好風憑藉力,飛槳要加油。
畢竟天時地利都有,最關鍵的人心也兼具,唯有拿出更好成績,才能實現更大雄心了。
你說呢?
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態
閱讀更多 量子位 的文章