喜提 NIPS 挑戰賽冠軍的百度,還有更多“AI Do”的野心

一年一度的人工智能頂級峰會 NIPS(Conference and Workshop on Neural Information Processing Systems,中文譯為:神經信息處理系統大會)即將在下月初正式召開,作為此次大會的八大挑戰賽之一,AI for prosthetics Challenge(人工智能假肢挑戰賽)上週已經決出勝負,來自全球 400 個技術團隊參與了此次比賽,冠軍被首次參賽的百度奪得,其 9980 分的高分,足足領先第二名高達 30 分之多。

據媒體報道,此次挑戰賽是通過強化學習算法,來實現對人類骨骼仿真模型的訓練,使模型能最大限度模仿人類運動方式,從而實現人工智能與生物科技的真正結合。

喜提 NIPS 挑戰賽冠軍的百度,還有更多“AI Do”的野心

參賽的團隊裡,不僅包括上屆冠軍、由「強化學習之父」Juergen Schmidhuber 創立的 AISENSE,還有阿里巴巴、Yandex 等巨頭,而首次參賽就得冠軍的百度,在此次競賽裡不僅展示了自身強大的強化學習能力,也讓外界看到了相關技術應用的無限可能。

那麼,為什麼這次比賽意義重大?百度能脫穎而出的秘訣又是什麼?這些技術對於行業發展又意味著什麼?

<strong>年度八大挑戰賽之一,難度大含金量高

今年 6 月份,NIPS 組委會從 21 個與大會相關的人工智能競賽中挑選出 8 個,包括利用對抗性生成網絡的計算機視覺挑戰賽、對話式智能挑戰賽以及 AI for prosthetics Challenge(人工智能假肢挑戰賽)等。

某種意義上說,這些比賽的內容體現了當年 NIPS 對於技術發展趨勢的研判,同時比賽的優勝者將在 NIPS 上發表相關演講,因此每一項比賽都吸引不同領域的公司、研究者參與其中。

而人工智能假肢挑戰賽,由斯坦福大學神經生物實驗室和 EPFL 聯合主辦,主要探索如何更好將強化學習算法應用到人體假肢之中。

據瞭解,此次主辦方提供了一個基於斯坦福國家醫學康復研究中心研發的 Opensim 高仿人體骨骼模型,這個模型擁有人類腿部絕大多數真實骨骼、關節和肌肉的精細仿真。參賽者需要根據該模型中多達 100 個以上的狀態,來決定模型肌肉的信號,然後控制該模型的肌體行走。

在去年的第一次挑戰賽上,比賽規則圍繞誰能讓模型肌體行走速度最快。而今年除了將整個模型運動控制從2D改為3D外,還引入帶有假肢的模型,同時模型的假肢不可控制,模型肌體行走的速度也有要求,並且還需要在第二輪比賽中按照事先未知的指定速度進行切換。

上述規則進一步增加了比賽的難度,比如對模型肌體有效信息的判斷上,由於實際狀態空間和動作空間稠密並且非常大,導致基於強化學習的算法無法準確把握模型肌體的行走姿勢;更進一步,由於規則要求不斷切換速度,更增加了模型控制難度。

儘管難度較大,但自今年 7 月份比賽開始啟動到現在,來自全球 400 多技術團隊都參與其中。這場強化學習領域的「模擬考」競爭異常激烈,最後的得分榜上,第二名 NNAISENSE 和第三名 Jolly Roger 之間僅有 2 分之差,而第一名的百度,則以30 分的優勢獲得冠軍。

喜提 NIPS 挑戰賽冠軍的百度,還有更多“AI Do”的野心

在關注度如此之高、難度又如此之大的比賽中勇奪第一,百度不僅令業界看到了強化學習的能力積累,也在展現相關應用的可能性。

<strong>技術黑科技與無限的應用場景

正如上文所言,此次比賽的難度非常高,想要取得好成績,除了要擁有基礎的計算能力,還要在相關算法設計上做出創新。

以此次百度所採用的幾項技術為例,首先,通過上千臺機器的 CPU 集群來加速模擬環境,利用 RPC 機制進行機器間通信,從而能在高性能GPU上進行高效的模型訓練。

喜提 NIPS 挑戰賽冠軍的百度,還有更多“AI Do”的野心

其次,利用 Deterministic Policy Gradient (DDPG),使得模型能夠應對較大空間和連續動作空間的挑戰,最終也使得一個單一模型能夠學習多種速度和姿態。

第三,在算法層面。通過 multi-head bootstrapping,能夠更好應對模型肌體的連貫性行走,同時還將強化學習的旋轉不變性等各類特徵處理方式,以及不斷實驗累計的各類 reward shaping 方法應用其中。

正是上述關鍵技術的綜合應用,從而讓百度能以 9980 的高分一舉奪冠,有參賽者表示,這是一個他們難以相信的分數。

喜提 NIPS 挑戰賽冠軍的百度,還有更多“AI Do”的野心

事實上,這次挑戰賽所展示出來的技術應用場景,並非僅僅侷限在人體假肢這個領域。

強化學習作為一種與環境交互的機器學習方式,擁有非常多的應用領域。比如在機器人的場景裡,機器人需要時刻與環境做出交互,它需要了解道路信息,躲開道路障礙等等。這些時刻變化的信息也會影響到機器人的行進速度,恰恰也是人工智能假肢挑戰賽中所考察的能力,這也意味著,百度在此次比賽中的這些技術積累可以直接應用到對機器人的控制算法中。

另外,自動駕駛汽車也是一個需要和環境做交互的設備,那麼是否能將上述技術應用到其中呢?

更進一步,強化學習所談的「環境」,並不僅僅只是物理環境,它也可以是一種「虛擬環境」。舉個簡單的例子,當用戶在搜索引擎裡輸入一個詞開始搜索後,接下來他所關注的內容都和這個詞有關,而他看到的這些內容,可能含有構成接下來繼續搜索的關鍵詞,以此類推,這也是一種不斷與環境交互的模型,同樣也可以是強化學習所發揮作用的地方。

上述幾個場景,不管是自動駕駛還是信息流推薦,都是目前百度正在發力的方向。未來隨著這些技術更深度地落地,整個產業也將再次為此震動。

與此同時,這種能力也會通過 PaddlePaddle 開源平臺賦能更多開發者,據瞭解,基於 PaddlePaddle 的強化學習框架PARL將在今年四季度正式發佈,屆時將為更多深度學習領域開發者提供強而有力的技術支撐。

<strong>尾巴:「AI Do」可能才剛剛開始

剛剛結束的百度世界大會上,百度展示最近一年在人工智能領域的多項落地產品,涵蓋自動駕駛、智能城市、對話式人工智能以及信息流等多個產品,而此次大會的口號也很有意思,「Yes, AI Do」。

所謂「Yes, AI Do」,更像是兩個相互疊加的命題,一方面是對 AI 技術不斷落地的承諾,另一方面也是 AI 技術繼續創新的承諾。

從這個角度去看,百度在這場業界矚目的 NIPS 挑戰賽中折桂,並取得其他選手形容為「不可能」的高分,充分展現了百度在強化學習領域的技術創新,同時也為接下來豐富的場景應用埋下了伏筆。從技術創新的領先與場景落地的引領,百度的「AI Do」可能才剛剛開始,百度將會用不斷創新的AI技術讓未來充滿無限想象。(完)


分享到:


相關文章: