深度強化學習+啟發人類的決策智能,專訪一家有願景的中國企業「啟元世界」

雷鋒網 AI 科技評論按:上次我們報道了來自中國的決策智能企業「啟元世界」,他們憑藉自己的核心技術深度強化學習和決策智能平臺,在 NeurIPS 2018 多智能體競賽「炸彈人團隊賽」中獲得了 Learning 組冠軍。

啟元世界對於深度強化學習技術路線的選擇,不禁讓人想起了同樣深耕強化學習、以圍棋 AI AlphaGo 聞名世界的人工智能企業 DeepMind。同時,啟元世界也和年輕人生活中不可或缺的元素 —— 遊戲 —— 有著千絲萬縷的聯繫。

但另一方面,強化學習作為一個快速發展的新興技術領域,本身尚有許多挑戰,如可復現性、可複用性和魯棒性方面的問題可能也會限制它的實際應用。啟元世界把深度強化學習用於決策智能的信心和熱忱來自哪裡?他們如何看待強化學習的種種挑戰?他們又有哪些技術成果支撐自己的遠大想法呢?抱著這些好奇,我們採訪了啟元世界的創始人 & CEO 袁泉。

深度强化学习+启发人类的决策智能,专访一家有愿景的中国企业「启元世界」

袁泉,啟元世界創始人 & CEO:曾擔任阿里認知計算實驗室負責人、資深總監,手機淘寶天貓推薦算法團隊締造者,打造了有好貨、猜你喜歡等電商知名個性化產品,率團隊榮獲 2015 年雙 11 CEO 特別貢獻獎。加入阿里前,袁泉曾是 IBM 中國研究院的研究員,從事推薦等智能決策算法的研究,是 IBM 2011 年全球銀行業 FOAK 創新項目發起人。在工業界大規模應用實踐的同時,總結並發表了十餘篇論文在國際頂級會議 ACM RecSys、KDD、SDM 等。袁泉擁有多項中美技術專利,長期擔任 ACM RecSys、IEEE Transaction on Games 審稿人。
啟元世界是一家 2017 年成立的以認知決策智能技術為核心的公司,由前阿里、Netflix、IBM 的科學家和高管發起,多位名牌大學的博士和碩士加入,並擁有伯克利、CMU 等知名機構的特聘顧問。啟元世界的願景是「打造決策智能、構建平行世界、激發人類潛能」,團隊核心能力以深度學習、強化學習、超大規模並行計算為基礎,擁有互聯網、遊戲等眾多領域的成功經驗,受到國內外一流投資人的青睞。
深度强化学习+启发人类的决策智能,专访一家有愿景的中国企业「启元世界」

10個訓練後的智能Reaper在環境中與玩家控制的10個Reaper對抗,表現出智能進退、追逐、分組合圍、利用地形騰挪跳躍的能力

雷鋒網 AI 科技評論:啟元世界的核心關注點是認知決策智能技術。我們有所耳聞的決策智能應用場景包括金融風控、醫療輔助診斷等等。啟元世界目前對哪些行業場景的關注比較多?成果如何?未來還計劃覆蓋哪些行業場景?

袁泉:我們關注的主要是遊戲、網絡智能和仿真相關的行業。我們的深度強化學習等技術,其實最早也是從遊戲中訓練而來的,而後基於啟元決策智能平臺做進一步的拓展和應用。所以我們比較自然的先發掘遊戲行業的應用,比如為遊戲公司提供 AI 引擎和服務。我們的 AI 智能體不僅可以在遊戲中替代傳統的 NPC,甚至可以陪人玩得很有樂趣(AI 和人類一起玩星際爭霸的視頻參見這裡),所以電子競技行業是我們關注的比較多的。網絡智能和仿真也是深度強化學習有優勢的領域。

我們公司創辦一年多,主要精力投入到核心技術和產品的研發,尤其是啟元決策智能平臺。啟元決策智能平臺經過了若干輪的迭代,內部版本號已經到了 -v0.8。目前啟元的決策智能平臺已經具備如下競爭優勢:

第一,持續學習的能力。持續學習的能力是智能體訓練中關鍵的一環。在訓練階段,智能體需要在學習新技能的過程中保留過去學會的技能,才能達到很高的水平。啟元決策智能平臺通過智能體群體匹配競技的方式實現「自然選擇」,從而達到持續學習的效果。在競技過程中,強者留存,弱者被淘汰。在弱者被淘汰之後,空出來的位置被強者的克隆體代替,而強者的克隆體則根據新的超參設定持續進化。在固定計算資源預算的情況下,啟元決策智能平臺通過這套機制在探索新強者(exploration)和深挖舊強者(exploitation)之間平衡對計算資源的使用情況。

第二,支持複雜場景的多智能體聯合訓練。在多智能體博弈問題中,不同智能體之間的相互剋制較為常見,其收斂可能性極為複雜。以炸彈人競賽舉例,在競賽中,不同隊伍的智能體風格迥異,有的善攻,有的善守。基於「鯰魚效應」的思想(指透過引入強者,激發弱者變強的效應),啟元決策智能平臺在訓練初期引入基於規則的高階對手,激發初期較弱的智能體在與強者的對決中學會各種基本技能,迅速提升變強;隨著訓練階段的深入,啟元決策智能平臺同時訓練多個智能體,使其在激烈的相互對抗中完善自我。

第三,支持基於私有云集群的大規模、高併發的模擬和大規模訓練。啟元決策智能平臺將多個模塊進行組件化,並封裝到了容器中(如圖)。通過雲端自動化的方式管理數百 CPU 以及 GPU 資源並實現容器編排,降低了調度數十個炸彈人訓練任務的成本。大規模、高併發的模擬計算以及大規模的訓練同時在私有云集群中進行。另外,啟元決策智能平臺提供分佈式存儲方案,並配置成共享模型池,為炸彈人智能體模型群體的持久化和共享提供支持。

深度强化学习+启发人类的决策智能,专访一家有愿景的中国企业「启元世界」

2018 年我們已經嘗試把一些技術商業化,目前也取得了不錯的營收。2019年,啟元世界計劃發佈第一版啟元決策智能平臺型產品,為更多行業客戶、終端用戶帶去高體驗的服務。

說回決策智能,它是個比較通用的技術,這種輔助決策的能力可以泛化到很多行業,甚至包括網絡智能—— 其實網絡中的每一個節點也都是一個可決策的智能體,決策智能有很大的發揮空間。未來可能對於電信電力、網絡智能相關的行業我們也會關注。

雷鋒網 AI 科技評論:決策智能在現實應用中需要考慮決策的可解釋性、決策的公平性、給人類提供辯解的機會等等問題。你們對這些問題是否有所準備?

袁泉:可解釋性、公平性這些都很重要。這裡面不僅要給人類提供辯解的機會,也需要讓 AI 解釋自己的決策過程,向人展示可信任的、具備可解釋性的決策,以及輔助決策的結果。比如其中一種方式是,可以把決策結果以很好的可視化呈現出來,我們過去在電商中做過的推薦系統,在生成推薦結果的時候可以同時給出幾條可解釋性的推薦理由。目前我們也從技術上,包括深度學習可解釋性相關的技術上做更多的技術積累。

雷鋒網 AI 科技評論:對於人工智能決策,有一個常被談起的設想問題是,假如一輛高速行駛的自動駕駛汽車面前突然衝出一個行人,減速避讓可能會傷害到車內的人,而不減速避讓則會傷害到這個行人。決策智能能否完美地解決類似這樣的問題呢?

袁泉:自動駕駛這個場景我們看的並不是很多,只能簡單談談我對這個問題的理解。

首先,如果這是一個有智能的汽車,已經出現了這種情況,也就是說已經到了不得不做這種決策的時刻了,這就其實是一個很晚的決策時機了。其實理想的情況就是要避免這類兩難決策的發生。當我們學開車的時候,最重要的一個原則就是 defensive driving,防禦性駕駛。所以如果是一個真正智能的決策系統,它應該會預估到前方可能出現的意外,比如衝出來的行人或者小狗,對突發情況有一定的準備,儘量避免這樣決策時機很晚的狀況。決策的 timing 很重要,不應該錯過最佳的決策時機。

其次,如果行進過程中確實有這種情況發生的時候,這個最大的原則肯定是保護人:保護人的生命,我覺得這應該是第一原則。這讓我想到阿西莫夫的機器人三原則,其實自動駕駛汽車就是一個機器人,它在任何時候都要以不得傷害人的生命為第一原則。如果是要在行人的生命和乘客的一些小的損傷、安全性上面做一些取捨,我相信可能也應該遵從這種原則。

深度强化学习+启发人类的决策智能,专访一家有愿景的中国企业「启元世界」

NeurIPS 炸彈人競賽中,炸彈人學會準確的炸箱子,並且通過最短路徑尋路吃增強藥

雷鋒網 AI 科技評論:在 NeurIPS 炸彈人競賽中使用的決策智能來自啟元決策智能平臺上運行的強化學習算法。對於遊戲競賽來說用強化學習的學習範式是很自然的選擇,那麼其它領域的決策智能也是用強化學習的嗎?(相比於更為直接的監督學習)

袁泉:我們團隊在過去十多年中做過互聯網推薦廣告、圖像、以及雲,有很多標註數據,這種時候就用監督學習來學習大數據。但是標註數據的成本非常高,所以我們強調說,

其實強化學習是更接近於人類、尤其是接近於小孩的自然學習過程。強化學習現在不僅可以適用在遊戲裡面,也可以用在自動駕駛。比如在真實世界中學習,哪怕積累了幾百萬公里的數據,你可能都很難獲得有信息量的負樣本(交通事故場景)。但是你在虛擬環境中,用強化學習去學習,是很容易獲得這種負樣本的。

所以強化學習這種範式,是可以走到遊戲之外的很多別的行業的,在自動駕駛、AlphaGo 之後,還可以用來做推薦,谷歌已經用它做數據中心的節能,還包括我剛才提到的網絡智能,都可以用強化學習的方式去學。

雷鋒網 AI 科技評論:那麼強化學習有機會全面替代監督學習嗎?

袁泉:目前還不可以。監督學習的核心是它的正負反饋,樣本的正負 label 其實是非常清楚和明確的一個信號,這個信號會指導機器學習系統的學習過程。但是強化學習中的「label」,也就是 reward,其實是個弱信號,它要麼是由環境給定的,要麼是 AI 開發人員指定的。也可以認為它其實是對監督學習強信號的一種逼近。

在一些情況下,比如說我們已經有了監督學習的大數據,而且這種任務又很關鍵、容錯率低,那麼藉助監督學習的正負信號,它可以學得更明確,學的更有指向性。強化學習相對監督學習,畢竟是一個新興的領域。監督學習通過過去幾十年的發展,從理論到工業界應用成熟度是比較高的。

深度强化学习+启发人类的决策智能,专访一家有愿景的中国企业「启元世界」

2017 年 5 月,烏鎮,柯潔在三番棋中輸給 AlphaGo Master

雷鋒網 AI 科技評論:強化學習是近年來的人工智能研究熱點,但是學習過程本身就有諸多困難,正如你們在介紹中說道「可復現性、可複用性和魯棒性方面依然存在挑戰」。那麼你們選擇強化學習作為自己的核心技術研發方向,可以談談有信心的理由嗎?目前有哪些原創的技術成果嗎?

袁泉:我們創始團隊過去做了十多年的大數據、監督學習之後,看到這個新興的技術領域就覺得很有興趣,整個創始團隊都對這個領域非常有 passion,不管是對技術本身,還是對玩遊戲這件事。我們多位創始團隊的成員其實都很喜歡玩遊戲,尤其是一些比較有深度、有創造性的遊戲。我和聯合創始人海濤,十多年前就對星際爭霸非常喜歡。

覺得有信心的理由的話,就是歸根結底還是來自於團隊和對強化學習的信仰。就像 AlphaGo 論文的一作以及主程序員、DeepMind 的科學家 David Silver 十多年前專門從英國跑到冰天雪地跟開闢了這整個領域的 Richard Sutton 學習強化學習。在這之前 David Silver 和 DeepMind 的另外一個創始人 Demis Hassabis 已經創辦了一家電子遊戲公司,十多年前就在探索《黑與白》這類基於 AI 的遊戲。這都是他們對強化學習有信仰的證明。

目前通過這兩年我們技術的積累,已經產生了不少原創性的技術成果,尤其是和遊戲這種博弈場景結合起來。近幾年熱門的三款遊戲都是這樣的博弈類的遊戲(MOBA)。我們目前已經有十餘個專利、軟件著作權作為我們這方面技術成果的體現,以及基礎的技術平臺 —— 啟元決策智能平臺。

其實當很多人還在談論強化學習勸退文、談到強化學習的訓練不穩定的時候,我們已經在這個平臺上不斷打磨,讓智能體能夠穩定的學習和訓練起來。包括這次炸彈人競賽,我們每個階段的訓練過程是沒有人類編寫的先驗規則參與的,都是智能體自己學出來的,學習曲線也非常漂亮,而且是兩個智能體在穩定地往上提升效果。

我們這一次得了競賽冠軍之後,就已經把競賽的成果寫了一篇論文(arxiv.org/abs/1812.07297),我們近期還有一篇論文在提交,是關於如何把強化學習和演化博弈論結合起來。未來我們也會更系統地整理其中的創新點、補充更多的實驗結果後,跟學界和產業界分享。

雷鋒網 AI 科技評論:現階段你們都面對(還面對)哪些技術挑戰?總體解決思路如何?

袁泉:技術挑戰肯定還是存在的,深度強化學習也是個新興的方向,剛剛火起來。

深度強化學習這個方向,我們從自己業務場景和體會來看,

一個很大的門檻是大規模複雜場景的智能體的訓練。這也是我們啟元決策智能平臺盡力在解決的目標。就在 NIPS 2018 上面,加拿大很權威的教授、圖靈獎得主 Judea Pearl 還在講強化學習的這種可復現性問題。目前我們在平臺上已經積累了許多技術,一定程度上解決了這些問題,但是隨著比如智能體規模變大,比如上千個智能體,甚至在更復雜、更開放的環境中去訓練,如何能夠穩定收斂也是我們在探索的方向。

另一個問題是,在非完全信息環境下如何博弈。 AlphaGo 下圍棋,是一個完全信息博弈(雙方都能看到棋盤上的所有棋子的位置),但是基本上所有的遊戲場景,以及現實的決策場景,都是不完全信息的。其實任何一個人做決策可能都是在不完全信息下做決策。我們提交的一些論文就是嘗試把強化學習和博弈論結合起來,一起去研究,這個也是新的方向。

從決策的角度講,決策智能目前也還是一個世界級的難題,決策過程也是人腦中最複雜的一種功能。從我們十餘年前在 IBM 研究院對 Watson 的理解、在阿里電商平臺的實踐,以及在認知計算實驗室所研讀的 AI 數十年發展史來看,主要有以下幾方面:一、決策過程是主觀與客觀、理智與情感相融合的過程,目前計算機擅於處理的是理性可計算部分,因此需要更好的建模和逼近路徑; 二、影響決策的因素非常多,人是在多源信息密佈的環境中進行決策,需要有效甄別和提取有效信息,同時對未知信息進行推理和假設。 三、各個行業運用決策智能的場景往往是要求實時決策,甚至是高併發決策,如互聯網中通常需要在毫秒級返回給用戶的推薦結果,因此對系統架構上挑戰也很大。

我們優勢是基於創始人、創始團隊過去十餘年在國際一流的研究機構、互聯網企業的經驗,對世界範圍內整個領域有深入的洞見和實踐經驗,清楚技術的邊界和發展路徑,與伯克利、CMU、紐約大學的許多知名專家學者都建立了深入的合作機制,能比較好的將決策智能的技術研發與前沿科研統一起來,兼顧商業化的落地場景。

深度强化学习+启发人类的决策智能,专访一家有愿景的中国企业「启元世界」

雷鋒網 AI 科技評論:最後一個問題,您曾經在阿里工作了較長時間,那麼您離開阿里創業的動力和願景是什麼?

袁泉:我從 2006 年開始做個性化推薦,最早在 IBM 的五六年主要是以研究和發表論文為主。然後 2012 年加入阿里,到 2017 年離開,非常感謝阿里這個平臺,讓我把過去研究算法、推薦系統的經驗,能夠完全應用在平臺上。產品從手機淘寶、到天貓,再到雙 11 項目,都成功地應用起來了。從我個人來說,非常感謝阿里這個平臺,自己實現了階段性的目標和使命。

決定離開,因為自己覺得在一個方向上做了超過十年之後,可以暫時告一段落。而且又看到以 AlphaGo 為代表的新技術,以及背後像 DeepMind 這樣的有夢想的公司。所以我覺得我們這個團隊也可以嘗試新技術和遠大的事情。我們公司的名字就叫啟元世界,英文叫 Inspir.AI ,希望可以用 AI 啟發更多的人。比如在遊戲這樣的虛擬化的場景中,可以更好地幫助人做輔助決策,以及給人提供創造性、有價值的,甚至啟發人的事情。

出於這樣的初心,我們希望 Build Intelligence ,打造決策智能; Incubate Worlds,構建平行世界,比如各種虛擬的遊戲、虛擬的場景,甚至和 VR 結合起來的平行世界;Inspire People,通過決策智能幫助人、激發人的創造力。

上個月強化學習之父 Richard Sutton 為我們公司題詞「To inspir.ai, Let us all be inspired ! 」是對我們最好的鼓勵!


分享到:


相關文章: