轉:MuZero:無規則掌握圍棋,象棋,將棋和Atari

據最新一期《自然》雜誌報道,DeepMind公司開發的一種AI算法MuZero,可以在不告知其遊戲規則的情況下掌握圍棋、國際象棋、日本將棋和視頻遊戲,這是谷歌人工智能部門獲得的又一重大突破。DeepMind 公司表示,研究人員多年來一直在尋找一種方法,既可以學習建立用於解釋當前環境的模型,也能夠利用這個模型來進行最好的決策。到目前為止,大多數方法都難以在Atari這種遊戲中進行有效規劃。

MuZero最初在2019年推出,通過只關注環境中最重要的一個方面,來學習建立模型並解決問題。通過將這種方法與阿爾法狗強大的搜索樹技術相結合,MuZero的能力實現了重大飛躍。此外,MuZero 還利用了前瞻搜索、基於模型的規劃來解決問題。MuZero不會使用規則來找到最佳情況(因為事先不被告知),而是學習考慮遊戲環境的各個方面,自己觀察它是否重要。在數百萬場比賽中,它不僅學習規則,而且學習位置的通用價值,成功的通用策略以及事後評估自己行為的方式。後一種功能可幫助其從自身的錯誤中學習、回憶和重做遊戲,以嘗試各種不同方法來進一步優化位置和策略價值。MuZero不僅在國際象棋、圍棋和日本將棋上達到了與提供完善規則的阿爾法狗一樣的超人水平,在Atari遊戲這樣的雜亂感知輸入環境中也創造了新紀錄。研究人員將MuZero描述為“在追求通用算法方面邁出的重要一步”。

轉博客:https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

我們是一個由科學家,工程師,機器學習專家等組成的團隊,他們共同努力,推動AI技術的發展。

2016年,我們推出了 AlphaGo ,這是第一個在古代Go遊戲中擊敗人類的人工智能(AI)程序。 兩年後,它的後繼者 -AlphaZero- 從零開始學習了Go,棋和將棋的掌握。 現在,在 《自然》雜誌的一篇論文中 ,我們描述了MuZero,這是在追求通用算法方面邁出的重要一步。 由於MuZero能夠在未知環境中計劃獲勝策略,因此無需掌握規則即可掌握Go,棋,shogi和Atari的知識。

多年來,研究人員一直在尋找既可以學習解釋其環境的模型,又可以使用該模型來計劃最佳行動方案的方法。 到現在為止,大多數方法都難以在有效地計劃領域(例如Atari)中,在這些領域中規則或動態特性通常是未知且複雜的。

MuZero 在 首次引入, 於2019年 初步論文中 通過學習僅關注計劃環境中最重要方面的模型來解決此問題。 通過將此模型與AlphaZero強大的前瞻性樹搜索功能相結合,MuZero在Atari基準上樹立了最新的技術成果,同時使AlphaZero的性能在圍棋,象棋和將棋的經典規劃挑戰中達到了最佳水平。 這樣,MuZero展示了強化學習算法功能的重大飛躍。

推廣到未知模型

計劃能力是人類智力的重要組成部分,它使我們能夠解決問題併為未來做出決策。 例如,如果我們看到烏雲形成,我們可以預測會下雨,然後決定冒險出門。 人類可以快速學習這種能力,並且可以將其推廣到新的場景中,這也是我們希望算法具有的一個特徵。

研究人員已嘗試通過兩種主要方法來應對AI中的這一重大挑戰:超前搜索或基於模型的計劃。

使用先行搜索的系統(例如AlphaZero)在諸如跳棋,國際象棋和撲克之類的經典遊戲中取得了顯著成功,但是依賴於其環境動態知識(例如遊戲規則或精確的模擬器)的獲得。 這使得很難將它們應用於混亂的現實世界中的問題,這些問題通常很複雜並且很難提煉成簡單的規則。

基於模型的系統旨在通過學習環境動力學的精確模型,然後使用其進行規劃來解決此問題。 但是,對環境的各個方面進行建模的複雜性意味著這些算法無法在視覺豐富的領域(如Atari)中競爭。 到目前為止,在Atari上最好的結果是來自無模型系統,例如 DQN , R2D2 和 Agent57 。 顧名思義,無模型算法不使用學習的模型,而是估計下一步將採取的最佳措施。

MuZero使用另一種方法來克服以前方法的侷限性。 MuZero並沒有嘗試對整個環境進行建模,而只是對對代理的決策過程至關重要的方面進行建模。 畢竟,瞭解雨傘會使您保持乾燥比建模空氣中的雨滴模式更有用。

具體地說,MuZero對環境的三個要素進行建模,這三個要素對於規劃至關重要:

  • 值: 有多好當前位置?
  • 政策: 其作用是最好服用?
  • 獎勵: 好,你是最後一個動作?

這些都是使用深度神經網絡學習的,是MuZero理解採取特定行動時會發生什麼並進行相應計劃所需的全部。

蒙特卡洛樹搜索如何用於MuZero神經網絡計劃的說明。 從遊戲的當前位置(動畫頂部的示意圖Go棋盤)開始,MuZero使用表示功能(h)將觀察結果映射到神經網絡使用的嵌入(s0)。 然後,使用動力學函數(g)和預測函數(f),MuZero可以考慮可能的未來動作序列(a),並選擇最佳動作。

MuZero利用與環境互動時收集的經驗來訓練其神經網絡。 這種體驗既包括對環境的觀察和回報,也包括在決定採取最佳措施時執行的搜索結果。

在訓練期間,模型會與收集的經驗一起展開,在每個步驟中預測先前保存的信息:價值函數v預測觀察到的獎勵之和(u),策略估計(p)預測先前的搜索結果(π),獎勵估計r預測最後觀察到的獎勵(u)。

這種方法的另一個主要優點是:MuZero可以反覆使用其學習的模型來改進其計劃,而不必從環境中收集新數據。 例如,在Atari套件的測試中,這種變體-稱為MuZero Reanalyze-90%的時間使用學習的模型來重新計劃過去情節中應該做的事情。

MuZero性能

我們選擇了四個不同的域來測試MuZeros的功能。 Go,國際象棋和將棋被用來評估其在挑戰性計劃問題上的表現,而我們使用Atari套件作為視覺上更復雜問題的基準。 在任何情況下,MuZero都為強化學習算法設定了新的技術水平,其性能優於Atari套件上的所有先前算法,並與AlphaZero在圍棋,象棋和將棋上的超人性能相匹配。

每次訓練使用200M或20B幀的Atari套件的性能。 MuZero在這兩種情況下均達到了最新水平。 所有分數均根據測試人員的表現進行了歸一化(100%),每種設置的最佳結果均以粗體突出顯示。

我們還詳細測試了MuZero可以利用其學習的模型進行計劃的能力。 我們從Go中的經典精度計劃挑戰開始,在此挑戰中,單步行動可能意味著獲勝與失敗之間的區別。 為了證實直覺,更多的計劃應該會帶來更好的結果,我們測量了如果有更多的時間來計劃每個舉動,那麼經過全面訓練的MuZero版本可以變得更強大(請參見下面的左圖)。 結果表明,隨著我們將每次移動時間從十分之一秒增加到50秒,遊戲強度會增加1000 Elo(衡量玩家的相對技能)。 這類似於強大的業餘玩家和最強的職業玩家之間的區別。

左:隨著可用於計劃每個動作的時間增加,圍棋中的演奏力量顯著增加。 請注意,MuZero的縮放比例幾乎與AlphaZero的縮放比例完全匹配,後者可以使用完美的模擬器。 右圖:在Atari遊戲中,Pac-Man女士的得分也會隨著訓練過程中每步動作的計劃量而增加。 每個圖都顯示了不同的訓練運行,其中MuZero允許每次移動考慮不同數量的模擬。

為了測試計劃是否還會在整個培訓過程中帶來好處,我們使用單獨訓練的MuZero實例在Atari遊戲Ms Pac-Man上進行了一組實驗(上面的右圖)。 允許每個人考慮每個動作的不同數量的計劃模擬,範圍從5到50。結果證實,增加每個動作的計劃數量可以使MuZero更快地學習並獲得更好的最終性能。

有趣的是,當MuZero僅允許每步進行6或7次模擬時-這個數字太小而無法覆蓋Pac-Man女士的所有可用動作-它仍然取得了良好的性能。 這表明MuZero能夠在行動和情況之間進行概括,而無需詳盡搜索所有可能的內容以有效學習。

新視野

MuZero學習環境模型併成功進行規劃的能力證明了強化學習和追求通用算法方面的重大進步。 它的前身AlphaZero已被應用於 的一系列複雜問題 化學 領域 , 量子物理學 等 。 MuZero強大的學習和計劃算法背後的思想可能為應對機器人,工業系統和其他凌亂的“遊戲規則”未知的現實世界中的新挑戰鋪平道路。


分享到:


相關文章: