谷歌提出基於世界模型的的大規模強化學習方法Dreamer

谷歌提出基於世界模型的的大規模強化學習方法Dreamer

From: Google;編譯: T.R

近年來隨著強化學習的發展,使得智能體選擇恰當行為以實現目標的能力得到迅速地提升。目前研究領域主要使用兩種方法:一種是無模型(model-free)的強化學習方法,通過試錯的方式來學習預測成功的行為,其中著名的方法包括用於完成雅達利遊戲的DeepMind的DQN方法和在星際爭霸二中與世界冠軍同臺競技的AlphaStar,但這類方法需要與環境進行大量的交互限制了其在真實場景中的應用。
基於模型(model-based)的強化學習方法則額外學習一個簡化的環境模型,這一環境模型使得主體可以預測潛在行為序列的輸出,使得它可以通過假設的場景來在新環境中作出明智的決策,減少了實現目標所需的試錯。先前學習精確的世界模型並將其充分應用於行為學習中還面臨一系列挑戰,但隨著近來像深度規劃網絡(Deep Planning Network, PlaNet)的研究出現,極大地拓展了從圖像中學習出精確世界模型的邊界,但基於模型的方法卻依然受到規劃(planning)機制龐大計算消耗的約束,限制了其在解決複雜任務上的應用。

為了解決這些問題,來自

谷歌和DeepMind的研究人員合作提出了一種基於圖像學習出世界模型(world model)的強化學習方法Dreamer,並在此基礎上學習出有遠見的行為。Dreamer基於模型預測的反向傳播來利用世界模型實現高效的行為學習。通過從原始圖像輸入中計算出緊緻的模型狀態,這種方法可以使得主體在單個GPU上並行地從上千個預測序列中進行高效的學習。通過20個基於原始圖像輸入的連續控制基準任務上測評表明,Dreamer在性能、數據效率和計算時間上都達到了先進水平。

Dreamer的基本架構

Dreamer和典型的基於模型方法一樣包含三個過程:學習世界模型、基於世界模型的預測學習行為、在環境中執行學習到的行為來收集新的經驗。為了學習行為,Dreamer中利用價值網絡(value network)將規劃視野外的獎勵納入考量,同時利用行為網絡(actor network)來高效的計算行為。這三部分可以並行地執行,一直重複運行直到達成目標:


谷歌提出基於世界模型的的大規模強化學習方法Dreamer

Dreamer主體的三個過程,世界模型基於過去經驗學習,隨後基於這一模型預測,主體通過價值網絡來預測未來獎勵、行為網絡來選擇行為。行為網絡用於與環境交互。

學習世界模型

Dreamer採用了PlaNet的世界模型,通過一系列緊緻的模型狀態來預測輸出,而這些模型狀態則通過輸入圖像計算得到,而不是直接利用圖像來進行處理。它將自動學習得出代表有益於預測未來輸出概念的模型狀態,例如目標類型、位置以及目標與周圍環境的交互等等。給定數據集中一個過去的圖像、行為和獎勵序列,Dreamer按照下圖的方式進行世界模型的學習:


谷歌提出基於世界模型的的大規模強化學習方法Dreamer

Dreamer 從經驗中學習世界模型,利用過去的圖像(o1–o3)、行為(a1–a2),它將計算出緊緻的模型狀態(綠色圓),並可以基於這些狀態重建出圖像(ô1–ô3)並預測出獎勵(r̂1–r̂3)。


利用PlaNet世界模型的優勢在於利用緊緻的模型狀態代替了圖像來進行預測,極大地提高了計算效率。這使得模型可以在單個GPU上預並行的預測上千個序列。這種方式同時可以提高模型的泛化性,進行精確的長時視頻預測。為了更好地理解模型的工作原理,下圖展示了將預測序列模型狀態解碼回圖像的結果:

谷歌提出基於世界模型的的大規模強化學習方法Dreamer

複雜環境下的長程預測結果,上圖顯示了兩個主體未曾遇到過的序列,給定五張輸入圖像,模型對其進行重建並預測出了後續到50步的圖像結果。

高效行為學習

先前基於模型的主體選擇行為的方法分為兩種,要麼通過多個模型預測來進行規劃,要麼通過將世界模型代替模擬器來複用無模型方法的技術。但兩種方法都需要龐大的計算需求,同時也未充分利用學習到的世界模型。此外及時強大的世界模型也會受制於精確預測的長度,很多先前基於模型的主體表現出短視的缺點。Dreamer通過世界模型的預測進行反向傳播學習價值網絡和行為網絡來克服上述侷限。
Dreamer通過預測的狀態序列反向傳播獎勵來高效地學習行為網絡用於預測正確的行為,這在無模型方法中是無法實現的。這將告訴Dreamer其多小的行為變化將會影響未來預測的獎勵,使得它可以向最大化獎勵的方向上優化行為網絡。為了考慮預測範圍外的獎勵,價值網絡將估計每一個模型狀態未來的獎勵和,獎勵和價值將反向傳播來優化行為網絡去改善行為。

谷歌提出基於世界模型的的大規模強化學習方法Dreamer

Dreamer通過模型狀態預測序列來學習長程行為,首先學習每個狀態的長程價值(v̂2–v̂3),而後通過反向傳播到行為網絡來預測能夠得到高價值和獎勵的行為(â1–â2)。


Dreamer與PlaNet有諸多不同,在環境中的給定狀態下,PlaNet在不同行為序列的多個預測中搜索最佳行為,而Dreamer則避開了這種計算消耗巨大的搜索方式,利用規劃和行為解耦的方式來提高計算效率。一旦在預測序列上訓練好了行為網絡,它將計算與環境交互的行為而無需額外的搜索。此外Dreamer利用價值函數考慮到了規劃以外的獎勵並通過反向傳播提高了規劃的效率。

控制任務上的表現

為了測試Dreamer的性能,研究人員在20個不同的任務上對其進行了測評,包括平衡、控制、運動等多種複雜的強化學習任務。

谷歌提出基於世界模型的的大規模強化學習方法Dreamer

多種複雜的任務,其輸入為圖像。包括了碰撞、稀疏獎勵、混沌動力學和高自由度甚至三維視角等複雜情況。


研究人員將Dreamer與多個先進的模型進行了比較,包括先前最先進的基於模型的方法PlaNet、無模型方法A3C、結合多種先進手段的無模型方法D4PG。實驗表明,基於模型的主體可以在五百萬幀內完成高效學習,大概對應28小時的仿真,而無模型的方法則需要近100萬幀的學習,大概對應23天的仿真訓練。在20個任務的測評基準上,Dreamer領先於目前最先進的無模型方法D4PG(平均分823>786),同時其與環境的交互大概要少二十倍。此外它最終的結果在所有任務上也超過了先前最好的基於模型方法PlaNet,最終的結果如下圖所示:

谷歌提出基於世界模型的的大規模強化學習方法Dreamer

Dreamer的性能與其他方法的比較,其得分、數據效率和計算時間都比先前方法要好。


此外研究人員還在連續任務上進行了實驗,以驗證Dreamer面對複雜環境的能力。下面的任務需要不僅需要長程行為預測,同時還需要模型具有空間感知能力。實驗表明Dreamer對於這些更具挑戰的任務依然能夠很好地進行處理:

谷歌提出基於世界模型的的大規模強化學習方法Dreamer

Dreamer成功地在雅達利遊戲和DeepMind環境中運行,這些離散的任務更具挑戰性。


Dreamer不僅在性能上超越了原有基於模型的方法,同時在計算效率上也大幅提升。研究人員認為Dreamer將為強化學習提供更為堅實的發展根基,同時也將促進更好地表示學習、基於不確定性的方向探索、時域抽象和多任務學習的發展。
如果想要了解更多詳細內容,請參看論文和代碼深入學習:

https://arxiv.org/pdf/1912.01603.pdf
https://github.com/google-research/dreamer


Ref:
https://zhuanlan.zhihu.com/p/33637351

https://ai.googleblog.com/2020/03/introducing-dreamer-scalable.html

DeepMind Control Suite:https://github.com/deepmind/dm_control

DeepMind Lab:https://github.com/deepmind/lab

https://arxiv.org/pdf/1801.00690.pdf


谷歌提出基於世界模型的的大規模強化學習方法Dreamer

關於我門

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門創投基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機交互、企業計算。在近四年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”: [email protected]

谷歌提出基於世界模型的的大規模強化學習方法Dreamer


分享到:


相關文章: