AlphaGo 0:100惨败,柯洁:人类还是太多余……

还记得年中在乌镇举行的人机棋赛吗?人类最强棋手柯洁迎战 Master 版本的AlphaGo,结果却三局完败。在此之前,AlphaGo 早已完虐世界各路棋手,无人能挡,围棋这项被认为是人类最不可能被战胜堡垒一般稳的竞技,也被 AI 妥妥地拿了下来,于是,人类终于感受到了 AI 带来的恐惧.....

从那以后,这个由谷歌旗下 DeepMind 团队开发的人工智能,就没有什么大的动作,仿若是当日威震天下的江湖大侠,而今低调到闭门修炼,不沾尘世。已经把世界冠军的头衔握在手里,它似乎已经成为无敌一般的存在。

当然,也有一部分人坚持AlphaGo的“神话”不会长期存在,随着AI技术革命的不断发展,AlphaGo失败也就是个时间问题,在人们都快淡忘这件事了,它终究败北的消息传来,而且还是0:100被完虐,可谓是惨不忍睹。这个消息也给了我们一个措手不及,这才不到半年,人类就诞生了一位比柯洁还要牛逼百倍的棋手,把世界第一围棋 AI 的神话一举打破?

当然不是。让 AlphaGo 输的如此之惨痛的不是别人,而正是 DeepMind 的新一代人工智能:AlphaGo Zero

这件事情最早刊登在本周《自然》上发表的一篇名叫论文 Mastering the game of Go without human knowledge报道,一款新版的 AlphaGo 计算机程序能够从空白状态起,在不需要任何人类输入的条件下,迅速自学围棋。这款新程序名叫 AlphaGo Zero,以100比0的战绩打败了它的前任。

最可怕的事还是发生了,通过几天的训练——包括近500万局自我对弈——AlphaGo Zero便能够超越人类并打败所有之前的AlphaGo版本。随着程序训练的进行,它独立发现了人类用几千年才总结出来的围棋规则,还建立了新的战略,为这个古老的游戏带来新见解。

但是,有些人类知识对于机器可能难以接受:他们要么代价高昂,要么太不可靠,要么就是根本无法使用。所以,AI 研究的长期目标就是跳过这步,创造一个在不需要人类干预的情况下就能在高难领域具备惊人表现的算法。

在我们最近发表在《nature》上的论文中,我们向这个目标又迈进了一步。

你可能已经了解到 AlphaGo 是世界上第一款在围棋上击败世界冠军的人工智能,但我们的的 最新版本——AlphaGo Zero,比 AlphaGo 性能更为强劲,可以当之无愧地说是史上最强围棋手。

上个版本的 AlphaGo 还在用人类业余和专业选手的对局来学习如何下围棋,AlphaGo Zero 则 跳过这步,通过大量自我对弈来学习下棋。这使得他快速超越人类水平,并且连续吊打 AlphaGo 100次——我看你叫 AlphaGo Hundred 好了。

背后的原理也很简单,我们使用了强化学习的一种新形式,让 AlphaGo Zero成为自己的老师。起初他也只是一个完全不理解围棋的人工智障,但在神经网络和一款强力的搜索算法的帮助下,他通过不断自我对弈、调整神经网络,最后学会了如何预测步数,连连获胜。

我们再拿这个已经强化过的神经网络和搜索算法相结合,创造出更新、更牛逼的 AlphaGo Zero,然后继续让他自我对弈。每下一局,整个系统的性能就会稍稍提升一点,对局质量也 会加强,一个更精确、更完美的 AlphaGo Zero 随即而生。

因为完全是在自我对弈的情况下学习,不受人类经验教训限制,AlphaGo Zero 比 AlphaGo 不知道高到哪里去了。打一出生,AlphaGo Zero 就向世界最强选手: AlphaGo 学习。

和之前版本相比,概括下来有几点不同:

AlphaGoZero单纯使用围棋的黑白子作为输入,但AlphaGo还包含了少量人工对局的数据。

AlphaGo Zero 只用了一个神经网络。AlphaGo 则用了两个:决策网络和价值网络,前者用于决定下一步怎么走,后者根据局势来判断谁会赢。AlphaGo Zero 把两个神经网络结合在一起,效率更高。

AlphaGoZero不使用“快速走子”——一种围棋软件惯用的预测方式,根据局势来快速模拟下棋套路,预测胜者。而是使用高质量的神经网络来评估自己下一步要走在哪儿。

很惭愧,看上去这些只是微小的变化,却能实实在在地提升系统的性能,泛用性更高,算法优化也让系统变得持久耐用。

硬件提升,功耗下降,AlphaGo Zero 效率更高

经历成千上万次自我对决,即便每次只学到了片鳞半爪,AlphaGo Zero 也在短短数天内极尽人类思维之精华,甚至青出于蓝,在和李世石与柯洁的对局中下出更为诡谲莫辨的棋风。 AI 在棋艺上的发挥更让我们坚信:人工智能可以成为人类精巧思维的绝佳助力。

AlphaGo 进化史

尽管为时尚早,AlphaGo Zero 已朝着目标迈出关键一步。如果我们能运用类似 AlphaGo Zero的技术到其他问题,例如:蛋白质折叠、减少能源消耗或者寻找革命性的新材料,所产生的突破将对整个社会造成深远影响。

1. AlphaGo Zero 中的增强学习

AlphaGo 的神经网络先用监督式学习模仿人类高手的操作,然后用强化学习来自我操练。现在我们革新了这一思路,单纯只用强化学习来训练 AlphaGo,无需人类数据、干预,不需要任何主观思想。人类被抛弃了,AlphaGo 成为了自己的老师。

和监督式学习相比,强化学习可以通过自己的经验训练自己,他能让 AI 在不需要人类专家的帮助下就能超越人类。

图 1. AlphaGo Zero 中的强化学习过程

图 2. AlphaGo Zero 中的蒙特卡洛树

图 3. AlphaGo Zero 的经验评估

图 4. AlphaGo Zero 和 AlphaGo Lee 在神经网络架构上的对比

图 5. 从 Alpha Zero 中新发现的围棋技术

2. AlphaGo Zero 训练的经验分析

经过对比可以很明显地看到,AlphaGo Zero 更精准,错误更少,超越 AlphaGo 600Elo。虽然将决策网络和价值网络结合在一起会稍微减少预测精准度,但换来的是减少错误量、提升对局表现,这一点又碾压 AlphaGo 600Elo。这其中有部分是计算性能提升的原因,决定性因素还是在于双神经网络结合,规整调节后使 AlphaGo Zero 的适用性更为广泛。

3. AlphaGo Zero 学到了啥?

图5展现AlphaGo Zero摸索新定式的过程。他通过完全随机的走子来理解围棋中的复杂概念,其中包括:布局、手筋、死活、劫、官子、对杀、先手、棋形、势、实地等。就连征子这种会把人类高手绕进去的概念,他也能稍加思索后理解通透。

4. AlphaGo Zero 的最终表现

我们对 AlphaGo Zero 训练了大约 40 天的时间。在整个过程中,一共生成了两千九百万对局, 总结出 40 个残差网络,学习曲线如下 6a 所示。

为了评估 AlphaGo Zero 的训练成果,我们把一家子人全都拉了出来:AlphaGo Fan、AlphaGo Lee、AlphaGo Master,每个AI每步都有5秒的考虑时间;AlphaGo Zero和AlphaGo Master只有4块TPU,AlphaGo Fan和AlphaGo Lee则分布在176块GPU和48块TPU上。从图6b我们能发觉,AlphaGo Zero 以 5185 分遥遥领先他的前辈。

最后我们在 2 小时内用 100 局比赛测试了 AlphaGo Zero 和 AlphaGo Master 之间的水平差距,AlphaGo Zero 以 89:11 战胜了 AlphaGo Master。

5. 结论

我们的结果完全证明,纯粹的强化学习足以应对各种充满挑战的领域,无需人类样本或指导, 只要有着一条条基础规则,AI 完全可以被训练到超人类水平,只需要几个小时的训练,就能碾压人类寒窗十几年的时光。

柯洁今天发微博,也是百感交集。

在围棋被发明后的这几千年里,人类对围棋的理解以各种形式散布在生活的方方面面。而AlphaGo Zero 从一张白纸开始,在短短数天内重新定义了围棋的知识体系,我们由衷地对这款最古老的游戏心生敬意。

本文整理翻译自:https://deepmind.com/blog/alphago-zero-learning-scratch/