擊敗《星際爭霸2》99.8%人類玩家,AlphaStar登上Nature

Alphabet旗下的DeepMind曾開發出著名的機器學習系統AlphaZero,在國際象棋、圍棋、圍棋等領域擊敗了世界冠軍。 今年1月,AlphaStar與動視暴雪(Activision Blizzard)的熱門即時戰略遊戲《星際爭霸2》(StarCraft 2)合作,再次迴歸到電子遊戲領域。 在連續10場比賽中,它擊敗了頂級球員Grzegorz " MaNa " Komincz和隊友Dario " TLO " Wunsch,

今天《自然》雜誌上發表了一篇論文:進一步的訓練使得AlphaStar在所有活躍玩家中的排名超過99.8%,並在星際爭霸2的3個玩家種族(神族,人族和蟲族)中達到了GrandMaster的段位——躋身地區前200名。

DeepMind表示,AlphaStar的最新版本——AlphaStar Final——可以在“專業認可”的條件下進行完整的《星際爭霸2》比賽,重要的是要限制其動作的頻率,並通過遊戲攝像頭觀察世界。

它在官方的《星際爭霸2》戰網服務器上使用與人類玩家相同的地圖和條件進行遊戲,並且能夠在沒有人類干預的情況下持續自我改進,這得益於與通用機器學習技術的結合,包括通過強化學習的自我對戰、多智能體學習和模仿學習。

DeepMind聯合創始人兼首席執行官Demis Hassabis表示:“15年來,《星際爭霸》一直是人工智能研究人員面臨的重大挑戰,所以看到這項工作在Nature上得到認可非常令人興奮。”“這些令人印象深刻的結果標誌著我們在創造智能系統以加速科學發現的使命上邁出了重要的一步。”

AlphaStar的進化歷程

DeepMind進軍競爭激烈的星際爭霸遊戲可以追溯到2017年,當時該公司與暴雪合作,發佈了一個包含匿名比賽回放的開源工具集。隨後,DeepMind推出了AlphaStar聯盟(AlphaStar League),這是一個人工智能模型訓練環境,讓不同版本的AlphaStar相互競爭,爭奪霸主地位。

《星際爭霸2》是一款即時戰略遊戲,玩家可以在遊戲中收集資源(如基地、建築、單位和技術等)來擊敗或防禦對手。這是一個轟動一時的遊戲類型,而星際爭霸2是其中的精華——自從2010年發佈以來,它已經被全球數百萬人和成千上萬的電子競技專業人士所熟悉。

擊敗《星際爭霸2》99.8%人類玩家,AlphaStar登上Nature

《星際爭霸2》的玩家可以選擇前面提到的三個種族。可控的工人單位收集資源來建造結構和創造新技術,從而解鎖更復雜的單元和結構。大部分的遊戲地圖最初是隱藏在玩家面前的,因此他們被迫去進行尋找對手的行動,而在整個過程中,玩家必須平衡短期任務,如建造建築物和控制單位與規劃獲勝的行動和管理資源。

DeepMind團隊指出,《星際爭霸2》為人工智能研究提供了一個豐富的測試平臺,尤其是因為它缺乏單一的最佳策略。更大的挑戰是,像對手單位實力這樣的指標對玩家來說是隱藏的,這就是所謂的不完全信息。《星際爭霸2》也強調了長期規劃,因此早期的遊戲行動在一段時間內並不一定會有回報。它要求玩家不斷地使用數百個不同的單位和建築來執行動作(以及動作的排列)。

擊敗《星際爭霸2》99.8%人類玩家,AlphaStar登上Nature

AlphaStar在比賽中的單位、資源和建築的自頂向下視圖。

簡單地說,設計用來掌握它的系統比該公司開創性的Deep Q-network要複雜一點,後者學會了直接從像素點玩50種不同的雅達利2600遊戲。“AlphaStar在幾個關鍵方面促進了我們對人工智能的理解,”AlphaStar項目負責人Oriol Vinyals解釋道。“在一個競爭激烈的聯盟中,通過多智能體訓練,可以在高度複雜的環境中獲得出色的表現,而單是模仿學習就可以獲得比我們之前預想的更好的結果。”

“自我對戰”

AlphaStar主要是通過上述的自我對戰來“學習”星際爭霸2的微妙之處(以及基本規則),在這種自我遊戲中,它與自己對抗以繼續提高。通常情況下,參與自我對戰的人工智能智能體有災難性遺忘的風險,在這種情況下,他們會忘記如何在學習新信息時戰勝之前的自己。這往往會引發一個循環,在這個循環中,與優勢策略相比,主體認為有效策略的效果越來越差。

一種解決方案是假想的自我對戰,或者與之前所有策略的組合進行遊戲。但這還不足以訓練AlphaStar。相反,DeepMind採用了一種新穎的、多用途的訓練方法,後來成為AlphaStar聯盟。其中一組代理——主要代理——試圖在一組代理中取勝,而另一組代理——exploiter代理——暴露主要代理的缺陷,而不是讓所有代理都贏。由於這一點,以及模仿學習技巧和代表各種開局動作的潛在變量,AlphaStar在整個訓練過程中都避免了遺忘。


擊敗《星際爭霸2》99.8%人類玩家,AlphaStar登上Nature

描繪AlphaStar智能體進化過程。

星際爭霸不是小孩子的遊戲。每一步大約有10^26(100,000,000,000,000,000,000,000,000)種可能的操作可供AlphaStar的單個代理執行,代理必須執行數千種操作才能知道他們是贏了還是輸了。

DeepMind通過模仿學習,向智能體灌輸有限的先驗知識。在模仿學習過程中,每當AlphaStar智能體的行為與被監督的人類演示不同時,它們就會受到懲罰。由於使用了語言建模技術和一個隱藏的變量來編碼人類遊戲中開局的分佈,最初的策略得以保留並使用了高水平的策略,擊敗了84%的活躍玩家。

DeepMind通過對人類策略的偏倚探索,以及利用一種算法進行強化學習(一種利用獎勵來推動政策朝著目標前進的人工智能訓練技術)來強化這些策略,從而允許有效地更新舊策略的遊戲策略。

擊敗《星際爭霸2》99.8%人類玩家,AlphaStar登上Nature

參與這項最新研究的Wunsch說:“雖然AlphaStar的策略有時與職業玩家不同,但在某些方面它和我玩得很像——比如它在注意地圖上的動作時顯示的延遲。”同樣令人興奮的是,AlphaStar自己開發的策略與人類玩家不同,就像AlphaStar在遊戲早期創造了比基地更多的工人,為後期的擴張做準備。它所能採取的行動的上限,以及攝像頭的限制,現在都使得遊戲更吸引人了——儘管作為一名專業玩家,我仍然能夠發現系統的一些弱點。”

在早期的訓練中,主要的特務被發現了“加農炮”的開發人員打敗了,這是一種策略,神族的玩家可以在他們視野範圍之外的敵人基地外製造早期的武器。隨著訓練的進展,新的主要代理人學會了如何對抗加農炮的exploiter,同時擊敗了早期的主要代理,他們有更好的經濟效益、單位組成和控制。

擊敗《星際爭霸2》99.8%人類玩家,AlphaStar登上Nature

DeepMind的AlphaStar正在進行自我對戰。

每個智能體使用32個第三代張量處理單元(TPUS)進行了超過44天的訓練,TPUS是谷歌專門為神經網絡機器學習開發的專用集成電路(asic)。據DeepMind報道,在聯賽訓練期間,創造了近900名不同的球員。

與《星際爭霸2》中內置的AI精英難度相比,AlphaStar最終為神族創造了6275個MMR,為人族創造了6048個MMR,為蟲族創造了5835個MMR。能力較差的AlphaStar模型——AlphaStar監督——達到了大約3699 MMR,超過了84%的人類玩家。

“AlphaStar僅僅憑藉(一種人工智能算法)和通用學習算法就達到了特級大師的水平——這在10年前是不可想象的,當時我正在使用基於規則的系統研究《星際爭霸》人工智能,”Vinyals說。“我很高興開始探索如何將這些技術應用於現實世界的挑戰,比如幫助提高人工智能系統的魯棒性。”

不止於遊戲

當然,DeepMind的終極目標不僅僅是《星際爭霸2》中的超級玩家。與AlphaZero一樣,我們的目標是利用AlphaStar的經驗來開發能夠解決社會最棘手挑戰的系統。

為此,DeepMind目前參與了幾個與健康相關的人工智能項目,包括在美國退伍軍人事務部(U.S. Department of Veterans Affairs)進行的一項試驗,該試驗旨在開發一種能夠預測急性腎衰竭(AKI)並識別大多數最嚴重病例的模型。最近,DeepMind的AlphaFold——一種可以預測複雜蛋白質結構的人工智能系統——在CASP13蛋白質摺疊大賽的98個競爭者中名列第一。

除了AKI和蛋白質摺疊,由DeepMind領導的工作正在英國國家醫療服務系統中進行,以開發一種可以搜索失明早期跡象的算法。Alphabet的子公司與倫敦帝國理工學院(Imperial College London)的英國帝國癌症研究中心(UK Imperial Center)合作,完善人工智能乳腺癌檢測模型,這一努力最近擴展到了東京產經大學醫院(Jikei University Hospital)。在9月份的醫學圖像計算和計算機輔助干預會議上發表的一篇論文中,DeepMind的研究人員透露,他們已經開發出一種可以用“接近人類的表現”來分割CT掃描的系統。

“在人工智能發展的歷史上,遊戲領域已經取得了里程碑式的成就。自從電腦破解了圍棋、國際象棋和撲克,星際爭霸就被公認為下一個重大挑戰。“我們使用通用的機器學習方法來解決這個挑戰,而不是讓人類手工製作解決方案。”

參考鏈接:

https://venturebeat.com/2019/10/30/deepminds-alphastar-final-beats-99-8-of-human-starcraft-2-players/

福利:關注本公眾號(ID:turingtopia)

特別推薦

擊敗《星際爭霸2》99.8%人類玩家,AlphaStar登上Nature

如果您對工業互聯網、數據中臺、精準營銷、智能推薦、人臉識別等業務經驗和AI應用感興趣,就來@派小僧 吧!

一線專家給你:

最全面的趟坑總結;

最前沿的實踐經驗;

最新落地的行業應用案例。

立即關注,一網打盡!

(ID:python_daydayup)

《雲原生下數據治理的微服務架構》:

https://mp.weixin.qq.com/s/CyItUzXITwR3LHBNFOTQZg


分享到:


相關文章: