OpenAI 發佈了一個程序化生成環境,可以評價智能體泛化技能學習

OpenAI發佈了用於評價強化學習智能體泛化技能學習的程序化生成環境——Procgen Benchmark。

Procgen Benchmark是一套由16個程序生成的類似遊戲的環境,用於在樣本效率和增強學習中的泛化做基準測試。

經驗證明,不同的環境分佈對於充分訓練和評估強化學習智能體是至關重要的,從而促進程序內容生成的廣泛使用。

然後,研究人員使用此基準來研究縮放模型大小的影響,發現較大的模型可以顯著提高樣本效率和泛化能力。

OpenAI博客:

https://openai.com/blog/procgen-benchmark/

論文地址:

http://t.cn/AigsB50N


分享到:


相關文章: