深度學習研究新內容:使用平均場博弈進行強化學習

點擊上方關注,All in AI中國

深度學習研究新內容:使用平均場博弈進行強化學習

強化學習是當今深度學習中最受歡迎的研究領域之一。強化學習的部分受歡迎是因為這是一種類似於人類認知的學習方法。在強化學習場景中,代理通過對環境採取行動並獲得特定獎勵來有機地學習。一個鮮為人知的稱為多智能體強化學習(MARL)的學科側重於涉及大量代理的強化學習場景。通常,MARL場景受到可擴展性挑戰的困擾,其中其複雜性隨著環境中的代理數量線性增加。最近,兩篇不同的研究論文一篇來自佐治亞理工學院(Georgia Institute of Technology),另一篇來自deep learning startup Prowler的研究小組,已經提出利用博弈論世界中的非傳統技術來應對這一挑戰。

單代理與離散多代理與無限多代理強化學習

強化學習中許多最著名的成功案例,如AlphaGo都是基於單一代理環境,其中只有一個人工智能(AI)程序與環境相互作用。在那些單一代理強化學習(SARL)的場景中,代理的獎勵功能僅僅基於動作和環境狀態的組合。現在考慮諸如涉及多個代理的多玩家遊戲之類的場景。這些場景被稱為多智能體強化學習(MARL),並且由於特定代理的獎勵功能可能受到環境中其他代理的行為的影響,因此結果更具挑戰性。

MARL場景在過去幾個月中獲得了一定的成功,比如OpenAI建立了一個可以擊敗Dota2的系統,在Quake III遊戲中做同樣的事情。但是,在這兩種情況下,MARL環境僅涉及少量代理。到目前為止,MARL方法在應用於涉及大量代理的場景時仍然存在困難。從這個意義上講,影響MARL的最大問題之一是它是否能夠在趨向無限代理商的情景中被證明是有效的。

帶有無限代理的MARL場景就在我們身邊。想想股票市場動態,其中交易者的行為可能受到大量其他交易者或宏觀經濟事件的影響。同樣,貿易或貨幣政策等領域的許多現代經濟問題可以模擬為具有大量代理人的MARL環境。具有無限代理的MARL場景的複雜性具有一個非常簡單的數學解釋。多智能體遊戲的解決方案通常使用電影《美麗心靈》中描述的著名的Nash-Equilibrium建模。然而,Nash-Equilibrium的計算複雜度與環境中的代理數量成線性關係,使得無限代理的MARL場景不可用。

深度學習研究新內容:使用平均場博弈進行強化學習

輸入平均場遊戲

平均場遊戲(MFG)是博弈論領域,使用大量非合作的理性代理來模擬建模。這個革命性的模型已經被數學家深入研究並應用於描述複雜的多智能體動態系統,如股票市場和智能電網。然而,MFG仍然主要是理論演習。雖然理論上MFG本身可以描述大型人口系統的行為,但模型可能需要處理通常無法解決的非線性偏微分方程。幸運的是,MARL沒有那個問題,因為它不需要精確的方程式。

MFG和MARL

MFG和MARL是兩個無法解決的因素。MARL可以使用不精確的概率模型有效地運行,但是在具有無限代理的環境中它是不切實際的。 MFG可以有效地模擬大量代理人的行為,但通常會產生不可解決的方程。如果我們將兩者合併會發生什麼?

深度學習研究新內容:使用平均場博弈進行強化學習

上面提到的兩篇研究論文提出了將MFG應用於MARL場景的不同技術。在這兩種情況下,研究表明,MFG方法可以大大降低具有大量代理的MARL場景的複雜性。例如,MFG可以將MARL場景中的代理行為建模為概率密度函數,因為它假設所有代理具有相似的獎勵函數(股票市場中的所有交易者都專注於最大化每筆交易的回報)。這種簡化使得具有大量代理的MARL場景在計算上可行。而不是代理單獨響應其他代理的動作,每個代理現在執行其動作以響應共同代表所有代理的狀態集合的質量。

Prowler.io研究團隊進行了幾項結合MFG和MARL的實驗。其中一個實驗基於著名的(SC)遊戲,其中N個代理在給定一些初始位置的情況下,每個代理選擇一個動作以便移動到作為終端狀態的期望位置。某些區域比其他區域更容易佔據,但是代理商不喜歡佔據擁擠區域。代理商可以獲得最大的獎勵,這些獎勵既可以是理想的,又具有相對低濃度的藥劑。

將MFG應用於此場景表明,無論參數的配置如何,獎勵函數在大約2000集之後趨於穩定。

深度學習研究新內容:使用平均場博弈進行強化學習

之前實驗的一個令人驚訝的結果是,MFG似乎也影響了RL代理,以優化長期規劃。例如,在SC遊戲中,代理通過採用快捷方式(橫向遍歷)來了解對象,他們可以增加整體獎勵。為了以這種方式行事,代理必須首先以低獎勵產生成本,因為它們遍歷與對象路徑不一致的水平路徑。從這個意義上說,代理人通過放棄直接獎勵來支持採取最大化長期獎勵的途徑來展示計劃。

深度學習研究新內容:使用平均場博弈進行強化學習

使用MFG方法對MARL場景建模仍然是純粹的理論練習,並未在實踐中應用。然而,最初的研究顯示出一種令人難以置信的潛力,最終突破了MARL許多最大限制所考慮的因素:使用無限代理進行大規模操作。

深度學習研究新內容:使用平均場博弈進行強化學習


分享到:


相關文章: