解讀NeurIPS-AutoDL 總決賽冠軍解決方案,代碼已開源

機器之心發佈

作者:深度賦智

由 NeurIPS 舉辦歷時四個月的 AutoDL 2019-2020(自動深度學習) 系列競賽總決賽在 4 月 18 日落下帷幕,來自深度賦智的 DeepWisdom 團隊榮獲冠軍。本文介紹了來自冠軍團隊的解決方案。

開源代碼鏈接:
https://github.com/DeepWisdom/AutoDL

注:開源代碼基於 Full-AutoML 系統自動設計出的共性解並加以改造

解讀NeurIPS-AutoDL 總決賽冠軍解決方案,代碼已開源

圖 1:AutoDL2019-2020 挑戰賽官方通告

背景

NeurIPS,全稱神經信息處理系統大會 (Conference and Workshop on Neural Information Processing Systems),是全球最受矚目的 AI、機器學習頂級學術會議之一。歷來,NeurIPS 競賽單元都被譽為 AI 界的華山論劍,匯聚了全球 AI 頂尖力量決戰技術之巔。

深度學習 DeepLearning 近年來飛速發展,在多個領域中獲得了顯著效果提升,但是深度學習技術實現仍然需要大量的專家經驗和人工成本,因此自動深度學習系統 AutoDL 受到了學術及工業界的廣泛關注,AutoDL 對快速推動落地應用和理論發展都具有重大意義。

此次 AutoDL Challenge 競賽堪稱史上最難,旨在讓參賽選手設計開發出能解決包括圖像、視頻、語音、文本和結構化表格數據等多模態、多領域的全自動多標籤分類系統。

競賽吸引了美國、德國、瑞士、日本、韓國等全球多地隊伍,來自包括清華大學、北京大學、南京大學、卡內基梅隆大學、首爾大學、弗萊堡大學、漢諾威大學等國內外著名前沿科研院校,以及 Google、微軟、阿里、騰訊、浪潮等國際一流公司,參賽隊伍總計進行了超過 2600 餘次提交。

競賽及任務

數據

挑戰賽分為兩個階段,包括 Feedback 反饋階段、Final 最終階段。在反饋階段,參賽選手基於 24 個訓練數據集,離線開發自己的 AutoDL 程序,實現訓練數據處理、模型結構設計、參數調校等過程。然後將自己的 AutoDL 程序代碼上傳到比賽平臺上,通過另外 5 個線上私有數據集測試,得到程序性能的即時反饋。在最終階段,參賽選手的 AutoDL 程序在無任何人工干預的前提下,通過 10 個私有數據集進行評估。最終階段多輪評估的平均排名將決定獲勝者。

評估

競賽採用 ALC(Area under ROC Learning Curve) 作為評估指標,在每個時間戳 t 計算最近一次預測的歸一化後 AUC 分數作為座標縱軸,座標橫軸歸一化採用以下方式計算:

解讀NeurIPS-AutoDL 總決賽冠軍解決方案,代碼已開源

ALC 計算方式:

解讀NeurIPS-AutoDL 總決賽冠軍解決方案,代碼已開源

該評估方式對方案的快速性、準確性提出了極其嚴格的要求,對現實場景中低成本、快速應用、高準確率等要求進行了較好模擬。

挑戰

競賽對參賽方案提出了一系列挑戰,包括且不限於:

如何在不同的數據中自動發現有效信息?

如何為不同領域的任務自動提取有用特徵?

如何自動處理不同領域的數據?

如何自動設計有效的神經網絡結構?

如何構建和自動調整預先訓練的模型?

如何自動高效地選擇恰當的機器學習模型與超參數?

如何提高解決方案的通用性?即如何保證解決方案在未知任務中的適用性?

如何控制計算和內存成本?

競賽結果

深度賦智 DeepWisdom 隊伍提交方案在 Feedback 階段和 Final 階段取得了雙項總分第一的成績!以兩階段平均排名 1.2 和 1.8 的分數穩定且大幅領先所有隊伍。其中 Feedback 階段在 5 個盲測數據集獲得了 4 項第一,Final 階段 10 個盲測數據集獲得了 7 項第一。

解讀NeurIPS-AutoDL 總決賽冠軍解決方案,代碼已開源

圖 2:Feedback-phase Leaderboard 榜單

解讀NeurIPS-AutoDL 總決賽冠軍解決方案,代碼已開源

圖 3:Final-phase Leaderboard 榜單

解讀NeurIPS-AutoDL 總決賽冠軍解決方案,代碼已開源

圖 4:Final-phase Leaderboard 可視化

核心技術解析

解讀NeurIPS-AutoDL 總決賽冠軍解決方案,代碼已開源

圖 5:AutoDL 競賽工作流

深度賦智的核心技術在於其獨立研發的 Fully Automatic Machine Learning(後文簡稱 Full-AutoML / 全自動機器學習)系統,這套系統量化了 AI 生產的所有環節,可以全自動、端到端地生產全流程 AI,擺脫了以往的 AI 設計需要諸多人類經驗、難以快速落地的約束。

以往基於人類 AI 工程師的簡單 AI 生產過程需要 3-6 個月,複雜 AI 生產過程需要 1-2 年,而 Full-AutoML 接入數據之後最短几十秒就可以構建出一套近似最優的端到端 AI,並且隨著線上反饋數據,可以不斷對 AI 持續優化。

Full-AutoML 具體是怎麼實現的?我們展開來講:

一名人類 AI 工程師需要在單個領域進行持續數年的學習、摸索,隨著接觸數據集的增多、掌握技巧的增多、對整體流程的積累,才能在單個領域下獲得較好效果。

與人類 AI 工程師類似,Full-AutoML 需要接觸較多的學習任務,以掌握在不同任務上的共性與特異性技巧。其中 MetaAI 子系統模擬了人類 AI 工程師的學習過程,通過觀察已有任務的數據流形與策略效果,以進行全自動的探索性優化。經過觀察,MetaAI 可以很好地總結不同任務知識,將原本耗時數年的 AI 構建過程縮短到最短數十秒。

解讀NeurIPS-AutoDL 總決賽冠軍解決方案,代碼已開源

圖 6:DeepWisdom MetaAI for AutoDL

進一步的,這套系統包含自動數據探索、自動數據處理、自動特徵工程、自動模型搜索、自動模型設計、自動模型壓縮、自動超參優化、自動集成等多項核心組件,內含 Few-shot Learning 小樣本學習、Weakly supervised learning 弱監督學習、Transfer Learning 遷移學習、Ensemble Learning 集成學習等多類特性。

解讀NeurIPS-AutoDL 總決賽冠軍解決方案,代碼已開源

圖 7:深度賦智 AutoML

值得注意的是,深度賦智產品矩陣已開發的自動內容理解系統,能較好處理本次競賽涉及的包含結構化和非結構化數據分類任務,該系統已經在智能搜索、智能推薦、智能決策等場景發揮了核心作用。此外,核心產品自動信息分發系統 AutoDist(包含自動搜索系統 AutoSearch、自動推薦系統 AutoRecsys)以及自動決策系統 AutoTables 已為若干客戶帶來顯著業績提升,可以為交易平臺提升 40%-60% 的核心效果,助力平臺節本提效。深度賦智將在 MetaAI 和 Full-AutoML 道路上繼續探索,為更多企業客戶快速節本提效、創造利潤。

深度賦智團隊已在若干頂級國際 AI 競賽中獲得諸多榮譽,包括 KDD 2019 AutoML/ACML 2019 AutoSpeech/PKDD 2019 AutoCV2/ACML 2019 AutoWSL 等競賽的單項/總分第一。

深度賦智及其學術團隊在協同學習/NAS/深度強化學習等領域的 100 餘篇相關論文發表於 KDD、PAMI、NIPS、CVPR、ACL、AAAI、IJCAI、SIGIR、MM 等頂會頂刊上,構成了 Full-AutoML 的核心積累。

深度賦智,致力於用 AI 製作 AI,讓每家企業具有開箱即用的 AI 能力。


分享到:


相關文章: