转:MuZero:无规则掌握围棋,象棋,将棋和Atari

据最新一期《自然》杂志报道,DeepMind公司开发的一种AI算法MuZero,可以在不告知其游戏规则的情况下掌握围棋、国际象棋、日本将棋和视频游戏,这是谷歌人工智能部门获得的又一重大突破。DeepMind 公司表示,研究人员多年来一直在寻找一种方法,既可以学习建立用于解释当前环境的模型,也能够利用这个模型来进行最好的决策。到目前为止,大多数方法都难以在Atari这种游戏中进行有效规划。

MuZero最初在2019年推出,通过只关注环境中最重要的一个方面,来学习建立模型并解决问题。通过将这种方法与阿尔法狗强大的搜索树技术相结合,MuZero的能力实现了重大飞跃。此外,MuZero 还利用了前瞻搜索、基于模型的规划来解决问题。MuZero不会使用规则来找到最佳情况(因为事先不被告知),而是学习考虑游戏环境的各个方面,自己观察它是否重要。在数百万场比赛中,它不仅学习规则,而且学习位置的通用价值,成功的通用策略以及事后评估自己行为的方式。后一种功能可帮助其从自身的错误中学习、回忆和重做游戏,以尝试各种不同方法来进一步优化位置和策略价值。MuZero不仅在国际象棋、围棋和日本将棋上达到了与提供完善规则的阿尔法狗一样的超人水平,在Atari游戏这样的杂乱感知输入环境中也创造了新纪录。研究人员将MuZero描述为“在追求通用算法方面迈出的重要一步”。

转博客:https://deepmind.com/blog/article/muzero-mastering-go-chess-shogi-and-atari-without-rules

我们是一个由科学家,工程师,机器学习专家等组成的团队,他们共同努力,推动AI技术的发展。

2016年,我们推出了 AlphaGo ,这是第一个在古代Go游戏中击败人类的人工智能(AI)程序。 两年后,它的后继者 -AlphaZero- 从零开始学习了Go,棋和将棋的掌握。 现在,在 《自然》杂志的一篇论文中 ,我们描述了MuZero,这是在追求通用算法方面迈出的重要一步。 由于MuZero能够在未知环境中计划获胜策略,因此无需掌握规则即可掌握Go,棋,shogi和Atari的知识。

多年来,研究人员一直在寻找既可以学习解释其环境的模型,又可以使用该模型来计划最佳行动方案的方法。 到现在为止,大多数方法都难以在有效地计划领域(例如Atari)中,在这些领域中规则或动态特性通常是未知且复杂的。

MuZero 在 首次引入, 于2019年 初步论文中 通过学习仅关注计划环境中最重要方面的模型来解决此问题。 通过将此模型与AlphaZero强大的前瞻性树搜索功能相结合,MuZero在Atari基准上树立了最新的技术成果,同时使AlphaZero的性能在围棋,象棋和将棋的经典规划挑战中达到了最佳水平。 这样,MuZero展示了强化学习算法功能的重大飞跃。

推广到未知模型

计划能力是人类智力的重要组成部分,它使我们能够解决问题并为未来做出决策。 例如,如果我们看到乌云形成,我们可以预测会下雨,然后决定冒险出门。 人类可以快速学习这种能力,并且可以将其推广到新的场景中,这也是我们希望算法具有的一个特征。

研究人员已尝试通过两种主要方法来应对AI中的这一重大挑战:超前搜索或基于模型的计划。

使用先行搜索的系统(例如AlphaZero)在诸如跳棋,国际象棋和扑克之类的经典游戏中取得了显著成功,但是依赖于其环境动态知识(例如游戏规则或精确的模拟器)的获得。 这使得很难将它们应用于混乱的现实世界中的问题,这些问题通常很复杂并且很难提炼成简单的规则。

基于模型的系统旨在通过学习环境动力学的精确模型,然后使用其进行规划来解决此问题。 但是,对环境的各个方面进行建模的复杂性意味着这些算法无法在视觉丰富的领域(如Atari)中竞争。 到目前为止,在Atari上最好的结果是来自无模型系统,例如 DQN , R2D2 和 Agent57 。 顾名思义,无模型算法不使用学习的模型,而是估计下一步将采取的最佳措施。

MuZero使用另一种方法来克服以前方法的局限性。 MuZero并没有尝试对整个环境进行建模,而只是对对代理的决策过程至关重要的方面进行建模。 毕竟,了解雨伞会使您保持干燥比建模空气中的雨滴模式更有用。

具体地说,MuZero对环境的三个要素进行建模,这三个要素对于规划至关重要:

  • 值: 有多好当前位置?
  • 政策: 其作用是最好服用?
  • 奖励: 好,你是最后一个动作?

这些都是使用深度神经网络学习的,是MuZero理解采取特定行动时会发生什么并进行相应计划所需的全部。

蒙特卡洛树搜索如何用于MuZero神经网络计划的说明。 从游戏的当前位置(动画顶部的示意图Go棋盘)开始,MuZero使用表示功能(h)将观察结果映射到神经网络使用的嵌入(s0)。 然后,使用动力学函数(g)和预测函数(f),MuZero可以考虑可能的未来动作序列(a),并选择最佳动作。

MuZero利用与环境互动时收集的经验来训练其神经网络。 这种体验既包括对环境的观察和回报,也包括在决定采取最佳措施时执行的搜索结果。

在训练期间,模型会与收集的经验一起展开,在每个步骤中预测先前保存的信息:价值函数v预测观察到的奖励之和(u),策略估计(p)预测先前的搜索结果(π),奖励估计r预测最后观察到的奖励(u)。

这种方法的另一个主要优点是:MuZero可以反复使用其学习的模型来改进其计划,而不必从环境中收集新数据。 例如,在Atari套件的测试中,这种变体-称为MuZero Reanalyze-90%的时间使用学习的模型来重新计划过去情节中应该做的事情。

MuZero性能

我们选择了四个不同的域来测试MuZeros的功能。 Go,国际象棋和将棋被用来评估其在挑战性计划问题上的表现,而我们使用Atari套件作为视觉上更复杂问题的基准。 在任何情况下,MuZero都为强化学习算法设定了新的技术水平,其性能优于Atari套件上的所有先前算法,并与AlphaZero在围棋,象棋和将棋上的超人性能相匹配。

每次训练使用200M或20B帧的Atari套件的性能。 MuZero在这两种情况下均达到了最新水平。 所有分数均根据测试人员的表现进行了归一化(100%),每种设置的最佳结果均以粗体突出显示。

我们还详细测试了MuZero可以利用其学习的模型进行计划的能力。 我们从Go中的经典精度计划挑战开始,在此挑战中,单步行动可能意味着获胜与失败之间的区别。 为了证实直觉,更多的计划应该会带来更好的结果,我们测量了如果有更多的时间来计划每个举动,那么经过全面训练的MuZero版本可以变得更强大(请参见下面的左图)。 结果表明,随着我们将每次移动时间从十分之一秒增加到50秒,游戏强度会增加1000 Elo(衡量玩家的相对技能)。 这类似于强大的业余玩家和最强的职业玩家之间的区别。

左:随着可用于计划每个动作的时间增加,围棋中的演奏力量显着增加。 请注意,MuZero的缩放比例几乎与AlphaZero的缩放比例完全匹配,后者可以使用完美的模拟器。 右图:在Atari游戏中,Pac-Man女士的得分也会随着训练过程中每步动作的计划量而增加。 每个图都显示了不同的训练运行,其中MuZero允许每次移动考虑不同数量的模拟。

为了测试计划是否还会在整个培训过程中带来好处,我们使用单独训练的MuZero实例在Atari游戏Ms Pac-Man上进行了一组实验(上面的右图)。 允许每个人考虑每个动作的不同数量的计划模拟,范围从5到50。结果证实,增加每个动作的计划数量可以使MuZero更快地学习并获得更好的最终性能。

有趣的是,当MuZero仅允许每步进行6或7次模拟时-这个数字太小而无法覆盖Pac-Man女士的所有可用动作-它仍然取得了良好的性能。 这表明MuZero能够在行动和情况之间进行概括,而无需详尽搜索所有可能的内容以有效学习。

新视野

MuZero学习环境模型并成功进行规划的能力证明了强化学习和追求通用算法方面的重大进步。 它的前身AlphaZero已被应用于 的一系列复杂问题 化学 领域 , 量子物理学 等 。 MuZero强大的学习和计划算法背后的思想可能为应对机器人,工业系统和其他凌乱的“游戏规则”未知的现实世界中的新挑战铺平道路。


分享到:


相關文章: