2小時學習,基於模型的強化學習方法可以在Atari上實現人類水平

無模型強化學習方法能夠用來學習複雜任務(如雅達利遊戲)的有效策略,但通常卻需要大量的交互,這也意味著更多的時間和更大的成本。本文嘗試用基於模型的強化學習方法讓智能體在雅達利遊戲上達到相似的效果,並比較了幾種模型架構。實驗結果表明,僅需 10 萬次智能體和環境之間的交互(約 2 小時的實時學習),基於模型的方法就能實現有競爭力的結果。


無模型強化學習(RL)能夠用於學習複雜任務(如雅達利遊戲)的有效策略。但這通常需要非常大量的交互——事實上,比人類掌握相同遊戲需要的嘗試多多了。為什麼人類可以學習如此之快?部分原因可能是,人類能夠學習遊戲原理,並預測出哪個動作會帶來想要的結果。在本文中,研究人員探索瞭如何基於視頻預測模型讓智能體在雅達利遊戲上達到類似的效果,同時所需的交互比無模型方法要少?

研究人員討論了模擬策略學習(Simulated Policy Learning,SimPLe)——一個基於視頻預測模型的完全無模型深度強化學習算法,並比較了幾種模型架構,包括在本文設定下產生最優結果的一種全新架構。研究人員在一系列雅達利遊戲上測試評估了 SimPLe,結果顯示,僅僅通過 10 萬次智能體和環境之間的交互(40 萬幀),SimPLe 就可得到有競爭力的結果。

基於模型的學習算法

在本文的方法中,智能體利用由預測模型生成的想象經驗完成學習。為此,至關重要的一點是,收集到的關於環境的數據必須足夠多樣化,以確保習得模型能夠在所有關鍵場景下正確復現出環境的動態。在絕大多數雅達利遊戲中,隨機探索(exploration)並不足以實現此目標。為了以更直接的方式進行探索,研究人員使用了迭代過程,由以下階段交替組成:數據收集、模型訓練、策略訓練,藉此,隨著策略變得更優,所收集到的數據也具有更多意義,因此可以學習逐漸變好的模型。策略訓練使用的是 PPO 算法。


2小時學習,基於模型的強化學習方法可以在Atari上實現人類水平

圖 1:SimPLe 的主要循環過程。1)智能體開始根據最新策略(隨機初始化)與真實環境進行交互。2)收集到的觀測結果被用來訓練當前及更新的世界模型(world model)。3)智能體通過在世界模型中採取行動來更新策略。評估新策略以衡量智能體的表現和收集更多數據(回到第 1 步)。注意,世界模型訓練對觀測到的狀態進行自監督,對獎勵進行監督。

隨機離散模型

本文的智能體從視頻預測模型所生成的原始像素觀測結果中學習。研究人員試驗了幾種架構,效果最好的模型是前饋卷積神經網絡。它利用一組卷積對一系列輸入幀進行編碼,並給定智能體採取的行動,然後利用一組解卷積對下一幀進行解碼。獎勵是基於瓶頸表徵(bottleneck representation)預測的。

研究人員發現,將隨機性引入模型會帶來不錯的效果,可以讓策略在訓練階段嘗試更多不同的場景。為此,研究人員添加了一個隱變量,而來自隱變量的樣本被添加至瓶頸表徵。在離散變量該設定下效果最優,被編碼為比特序列。模型的整體架構類似於變分自編碼器,其中隱變量上的後驗是基於整個序列(輸入幀+目標幀)近似得到,從該後驗中抽取一個值,並將該值與輸入幀和行動一起用於預測下一幀。在推斷階段,潛代碼(latent code)由自迴歸 LSTM 網絡生成。


2小時學習,基於模型的強化學習方法可以在Atari上實現人類水平

圖 2:帶有離散隱變量的隨機模型架構。模型輸入是 4 個堆疊的幀(以及智能體選擇的策略),輸出則是預測的下一幀及預期獎勵。利用全連接層嵌入輸入像素和行動,在輸出中有像素級的 softmax(256 色)函數。該模型有兩個主要組成部分。首先,網絡底部由帶有殘差連接的卷積編碼器和解碼器組成。為了根據智能體的行動調節輸出,解碼器中每一層的輸出都乘以(習得的)嵌入行動。模型的第二部分是卷積推斷網絡,類似於 Babaeizadeh 等人 (2017) 的觀點,它在給定下一幀的條件下近似估計後驗。在訓練階段,從近似後驗抽樣得到的隱變量值將離散化為比特。為使模型可微,反向傳播根據 Kaiser & Bengio (2018) 的方法避開離散化,並訓練第三個基於 LSTM 的網絡,以在給定先前比特時近似估計當前比特。在推斷階段,利用該網絡自迴歸地預測隱比特。確定性模型(deterministic model)與上圖架構相同,但不包含推斷網絡。

結果

本文的主要目的是利用無模型方法實現當前最佳的樣本效率。這引出了以下問題:在適度的 10 萬次交互(2 小時的實時學習)中,可以獲得怎樣的分數?

研究人員對本文方法與 Rainbow(在雅達利遊戲上當前表現最佳的無模型算法)進行了比較,然後根據該方法與環境的一百萬次交互重新調整,以獲得最優結果。並與訓練中使用的 PPO 實現進行了對比。結果如下所示,說明了為獲得與本文方法相同的分數,無模型算法所需要的交互次數。紅線表示本文方法所使用的交互次數。不難看出,使用該方法可以將大多數遊戲上的樣本效率提升兩倍不止。

2小時學習,基於模型的強化學習方法可以在Atari上實現人類水平

圖 3:本文方法與 Rainbow 的對比。每個長條說明:為達到和本文方法(SimPLe)相同的分數,Rainbow 所需與環境進行交互的次數。紅線表示 10 萬次交互的閾值,是 SimPLe 所使用的次數。

2小時學習,基於模型的強化學習方法可以在Atari上實現人類水平

圖 4:本文方法與 PPO 的對比。每個長條表示:為達到和本文方法(SimPLe)相同的分數,PPO 所需與環境進行交互的次數。紅線表示 10 萬次交互的閾值,為 SimPLe 所使用的次數。

通關遊戲

另人驚喜的是,在 pong 和 Freeway 兩款遊戲上,本文完全在模擬環境下訓練的智能體在真實遊戲中表現突出:分別獲得了最高分。需要強調的是,沒有為每個遊戲單獨調整方法和超參數。

下面的視頻是 Pong 的一個首秀,本文方法習得的策略獲得了 21 分的滿分。

Freeway 也是一個非常有趣的遊戲。雖然簡單,但卻是一個巨大的探索挑戰。由智能體操控的雞,在進行隨機探索時上升速度很慢,因為它總是會被汽車撞到。這使得它完全通過馬路並獲得非零獎勵幾乎是不可能的。然而,SimPLe 能夠捕獲這種罕見的事件,並將其轉化為預測模型,進而成功習得獲勝策略(見視頻)

論文:Model Based Reinforcement Learning for Atari

2小時學習,基於模型的強化學習方法可以在Atari上實現人類水平

論文地址:https://arxiv.org/pdf/1903.00374.pdf

摘要:無模型強化學習能夠用於在複雜任務(如雅達利遊戲,甚至基於圖像觀測)中學習非常有效的策略。但是,這通常需要非常大量的交互——事實上,比人類掌握相同遊戲需要的次數更多。為什麼人類可以學習如此之快?部分原因可能是,人類能夠學習遊戲原理,並預測出哪個動作會帶來想要的結果。在本文中,我們探索瞭如何基於視頻預測模型來達到類似效果,讓智能體能夠通過更少的交互(相較於無模型方法而言,次數降低了幾個數量級),通過雅達利遊戲。本文討論了模擬策略學習(SimPLe),一個基於視頻預測模型的完全基於模型的深度強化學習算法,並比較了幾種模型架構,包括一個在本文設定下得出最優結果的全新架構。我們在一系列雅達利遊戲上測試評估了 SimPLe,實驗結果顯示,僅通過 10 萬次智能體和環境之間的交互(40 萬幀),約 2 小時的實時學習,SimPLe 就可獲得有競爭力的結果。


分享到:


相關文章: