OpenAI發佈了用於評價強化學習智能體泛化技能學習的程序化生成環境——Procgen Benchmark。
Procgen Benchmark是一套由16個程序生成的類似遊戲的環境,用於在樣本效率和增強學習中的泛化做基準測試。
經驗證明,不同的環境分佈對於充分訓練和評估強化學習智能體是至關重要的,從而促進程序內容生成的廣泛使用。
然後,研究人員使用此基準來研究縮放模型大小的影響,發現較大的模型可以顯著提高樣本效率和泛化能力。
OpenAI博客:
https://openai.com/blog/procgen-benchmark/
論文地址:
http://t.cn/AigsB50N
閱讀更多 量子位 的文章