賓夕法尼亞大學提出使用深度強化學習解決「多智能體」問題

賓夕法尼亞大學提出使用深度強化學習解決「多智能體」問題

圖源:pixabay

作者:Arbaaz Khan、Clark Zhang、Daniel D. Lee、Vijay Kumar、Alejandro Ribeiro

「雷克世界」編譯:嗯~是阿童木呀、KABUDA

導語:可以這樣說,大多數現有的深度多智能體強化學習方法只考慮具有少數智能體的情況。而當智能體的數量增加時,這些方法不能很好地進行擴展,從而不能很好地解決多智能問題。最近,賓夕法尼亞大學GRASP實驗室的科學家們提出,通過策略梯度進行可擴展的集中式深度多智能體強化學習。經過一系列的實驗結果表明,隨著智能體數量的增長,本文提出的算法,在性能方面優於當前最先進的多智能體深度強化學習算法。

在本文中,我們將探索使用深度強化學習來解決多智能體問題。可以這樣說,大多數現有的深度多智能體強化學習方法只考慮少數的智能體。當智能體的數量增加時,輸入和控制空間的維度也會增加,而這些方法不能很好地進行擴展。為了解決這個問題,我們提出將多智能體強化學習問題視作分佈式優化問題。我們的算法假設在多智能體環境設置中,給定群體中個體智能體的策略在參數空間中彼此靠近,並且可以通過單一策略進行近似。通過這個簡單的假設,我們展示了我們的算法對於多智能體環境中的強化學習來說非常有效。我們在合作性和競爭性任務中,將該算法與現有的可比較方法進行比較並展示了其有效性。

充分利用強化學習(RL)中深度神經網絡的強大力量已經成為設計策略的成功方法,這些策略可以對傳感器輸入進行映射以控制複雜任務的輸出。其中,這些任務包括但不限於學習翫視頻遊戲、學習機器人任務的複雜控制策略、學習僅使用感官信息進行規劃等。雖然這些結果令人印象深刻,但其中大多數方法僅考慮單一智能體環境設置。

賓夕法尼亞大學提出使用深度強化學習解決「多智能體」問題

圖1:分佈式學習的多智能體框架

在現實世界中,許多應用程序,特別是機器人和通信領域,需要多個智能體在合作性或競爭性環境中進行彼此交互。例如具有機器人團隊的倉庫管理、多機器人傢俱設備組裝、以及機器人團隊的併發控制和通信等。傳統上,這些問題可以通過最小化一個由機器人和環境動力學所約束的精心設置的優化問題來解決。通常情況下,當向問題添加簡單的約束條件或簡單地增加智能體數量時,這些問題就會變得更為棘手。在本文中,我們試圖通過將多智能體問題定義為多智能體強化學習(multi-agent reinforcement learning,MARL)問題從而解決這一多智能體問題,並利用深度神經網絡的強大力量。在MARL中,從智能體的角度來看,環境並不是很穩定。這是因為其他智能體也在改變他們的策略(由於學習)。諸如Q-learning這樣傳統的強化學習範例不適合這種不穩定的環境。

最近,有幾項研究成果提出了使用分散的演員中心化評論家模型(actor-centralized critic models)。當被考慮的智能體的數量很小時,這些已被證明是行之有效的。建立大量演員網絡從計算上來看並不是資源高效的。此外,評論家網絡的輸入空間也會隨著智能體數量的增長而迅速增長。而且,在去中心化的框架中,每個智能體都必須對其他智能體進行估計和追蹤。即使只有一個智能體,大多數深度強化學習算法都是樣本效率低下的。正如我們將要證明的那樣,試圖在去中心化框架中學習多個智能體的個體策略變得非常低效。因此,試圖通過使用去中心化框架,使用有限的交互來學習多策略往往是不可行的。

賓夕法尼亞大學提出使用深度強化學習解決「多智能體」問題

圖2:用於測試的多智能體環境:我們既考慮協作環境,也考慮競爭環境。左:協作導航(帶有3個智能體);中心左側:10個智能體的協作導航;中心右側:捕食者—獵物;右:與許多(630)智能體一起生存。

相反,我們提出使用中心化模型(centralized model)。在這裡,所有的智能體都能夠意識到其他智能體的行為,這減輕了非平穩性的情況。要使用MARL的中心化框架,我們必須要從單個智能體那裡收集經驗,然後學習將這些經驗結合起來,從而為所有智能體輸出行為。一種選擇是使用像神經網絡這樣的高容量模型來學習策略,而這種策略可以將所有智能體的聯合觀察映射到所有智能體的聯合行為中。這種簡單的方法適用於智能體數量較少的情況,但在智能體的數量增加時則會受到維度的限制。另一種可能性是為一個智能體學習策略,並在所有智能體中對其進行微調,但這也被證明是不切實際的。為了緩解規模和有限交互的問題,我們提出使用用於MARL問題的分佈式優化框架。其關鍵思想是,當多個智能體進行交互時,為所有展現緊急行為的智能體學習一種策略。這種類型的策略已被證明在自然界以及群體機器人中都有所使用。在本文中,目標是通過強化學習從原始觀察和獎勵中學習這些策略。

賓夕法尼亞大學提出使用深度強化學習解決「多智能體」問題

圖3:協作導航中的最小獎勵VS事件的數量

對一個跨所有智能體的策略進行優化是很困難的,並且有時候還難以控制(特別是當智能體的數量很大時)。相反,我們採用分佈式方法,其中每個智能體通過其局部觀察來改進中心策略。然後,中心控制器將這些改進結合起來,從而改進整體策略。這可以被看作是對一個原始問題的重塑,由對一個策略進行優化重塑為對若干個策略進行優化,而這若干個策略受限於它們是相同的。訓練結束後,所有智能體只能使用一個策略。這是一種優化技術,之前已經在分佈式環境設置中取得了成功。因此,本文的主要貢獻是:

1.提出一種使用分佈式優化解決MARL問題的新算法。

2.在使用分佈式優化解決MARL問題時,提出策略梯度公式。

相關研究

多智能體強化學習(MARL)一直是強化學習領域中,備受積極探索的分支。許多初始方法都基於表格法(tabular methods)來計算Markov博弈總體的Q值。過去的另一種方法是將每個事件(episode)都作為一個迭代博弈來處理,從而消除MARL中的非平穩性,在此期間,其他智能體保持不變。在這一博弈中,所提出的算法尋求納什均衡(Nash equilibrium)。當然,對於含有多智能體的複雜競爭或協作任務而言,找到納什均衡是非常重要的。基於最近深度強化學習方法的成功,人們對使用神經網絡等高容量模型來解決MARL問題產生了新的興趣。然而,這一過程並不簡單,並且很難擴展至智能體數量超過2個的博弈中。

當使用深度神經網絡解決MARL問題時,一種過去運行良好的一種方法是,對每個智能體使用去中心化的演員,並在智能體間使用參數共享的中心化評論家。雖然這在智能體數量很少時運行良好,但是它效率不高,而且經常在環境中智能體數量增加時,訓練會變得不穩定。

在我們的研究中,我們推導出了用於多個智能體的策略梯度派生。這種派生與元學習(meta-learning)中的策略梯度非常相似,而元學習可以用來解決連續的任務適應。在以往的研究中,專家提出了一種元學習算法,試圖通過將非平穩性任務視為一系列固定任務來緩解非平穩性問題,並訓練智能體利用連續任務之間的依賴關係,從而使其能夠在執行任務期間處理類似的非平穩任務。這與我們的研究形成了鮮明的對比,其中,我們專注於MARL問題。在MARL中,通常很少有可以利用的任務之間(在MARL設置中對應於智能體之間)依賴關係。相反,我們聚焦於使用分佈式學習來學習策略。

因此,在本次研究工作中,我們提出了一種用於多智能體強化學習的分佈式優化方案,以學習如何將來自所有智能體的信息,整合至一個適用於大型群體的策略中。實驗結果表明,隨著智能體數量的增長,本文提出的算法,在性能方面優於當前最先進的多智能體深度強化學習算法。

我們在研究過程中所面臨的瓶頸,是計算梯度更新的二階導數時,會涉及大量計算成本。因此,在實際應用中,我們對二階導數進行了近似處理,並且僅限於簡單的前饋神經網絡。在更具挑戰性的任務中,嘗試使用循環神經網絡並研究計算快速梯度的方法,或許是一個好的選擇。我們將這留作今後的工作。

原文鏈接:https://arxiv.org/pdf/1805.08776.pdf


分享到:


相關文章: