AlphaGo 0：100惨败，柯洁：人类还是太多余……

全棧工程師

2017-10-20 08:22:25

还记得年中在乌镇举行的人机棋赛吗？人类最强棋手柯洁迎战 Master 版本的AlphaGo，结果却三局完败。在此之前，AlphaGo 早已完虐世界各路棋手，无人能挡，围棋这项被认为是人类最不可能被战胜堡垒一般稳的竞技，也被 AI 妥妥地拿了下来，于是，人类终于感受到了 AI 带来的恐惧.....

从那以后，这个由谷歌旗下 DeepMind 团队开发的人工智能，就没有什么大的动作，仿若是当日威震天下的江湖大侠，而今低调到闭门修炼，不沾尘世。已经把世界冠军的头衔握在手里，它似乎已经成为无敌一般的存在。

当然，也有一部分人坚持AlphaGo的“神话”不会长期存在，随着AI技术革命的不断发展，AlphaGo失败也就是个时间问题，在人们都快淡忘这件事了，它终究败北的消息传来，而且还是0：100被完虐，可谓是惨不忍睹。这个消息也给了我们一个措手不及，这才不到半年，人类就诞生了一位比柯洁还要牛逼百倍的棋手，把世界第一围棋 AI 的神话一举打破？

当然不是。让 AlphaGo 输的如此之惨痛的不是别人，而正是 DeepMind 的新一代人工智能：AlphaGo Zero

这件事情最早刊登在本周《自然》上发表的一篇名叫论文 Mastering the game of Go without human knowledge报道，一款新版的 AlphaGo 计算机程序能够从空白状态起，在不需要任何人类输入的条件下，迅速自学围棋。这款新程序名叫 AlphaGo Zero，以100比0的战绩打败了它的前任。

最可怕的事还是发生了，通过几天的训练——包括近500万局自我对弈——AlphaGo Zero便能够超越人类并打败所有之前的AlphaGo版本。随着程序训练的进行，它独立发现了人类用几千年才总结出来的围棋规则，还建立了新的战略，为这个古老的游戏带来新见解。

但是，有些人类知识对于机器可能难以接受：他们要么代价高昂，要么太不可靠，要么就是根本无法使用。所以，AI 研究的长期目标就是跳过这步，创造一个在不需要人类干预的情况下就能在高难领域具备惊人表现的算法。

在我们最近发表在《nature》上的论文中，我们向这个目标又迈进了一步。

你可能已经了解到 AlphaGo 是世界上第一款在围棋上击败世界冠军的人工智能，但我们的的最新版本——AlphaGo Zero，比 AlphaGo 性能更为强劲，可以当之无愧地说是史上最强围棋手。

上个版本的 AlphaGo 还在用人类业余和专业选手的对局来学习如何下围棋，AlphaGo Zero 则跳过这步，通过大量自我对弈来学习下棋。这使得他快速超越人类水平，并且连续吊打 AlphaGo 100次——我看你叫 AlphaGo Hundred 好了。

背后的原理也很简单，我们使用了强化学习的一种新形式，让 AlphaGo Zero成为自己的老师。起初他也只是一个完全不理解围棋的人工智障，但在神经网络和一款强力的搜索算法的帮助下，他通过不断自我对弈、调整神经网络，最后学会了如何预测步数，连连获胜。

我们再拿这个已经强化过的神经网络和搜索算法相结合，创造出更新、更牛逼的 AlphaGo Zero，然后继续让他自我对弈。每下一局，整个系统的性能就会稍稍提升一点，对局质量也会加强，一个更精确、更完美的 AlphaGo Zero 随即而生。

因为完全是在自我对弈的情况下学习，不受人类经验教训限制，AlphaGo Zero 比 AlphaGo 不知道高到哪里去了。打一出生，AlphaGo Zero 就向世界最强选手: AlphaGo 学习。

和之前版本相比，概括下来有几点不同:

AlphaGoZero单纯使用围棋的黑白子作为输入，但AlphaGo还包含了少量人工对局的数据。

AlphaGo Zero 只用了一个神经网络。AlphaGo 则用了两个:决策网络和价值网络，前者用于决定下一步怎么走，后者根据局势来判断谁会赢。AlphaGo Zero 把两个神经网络结合在一起，效率更高。

AlphaGoZero不使用“快速走子”——一种围棋软件惯用的预测方式，根据局势来快速模拟下棋套路，预测胜者。而是使用高质量的神经网络来评估自己下一步要走在哪儿。

很惭愧，看上去这些只是微小的变化，却能实实在在地提升系统的性能，泛用性更高，算法优化也让系统变得持久耐用。

硬件提升，功耗下降，AlphaGo Zero 效率更高

经历成千上万次自我对决，即便每次只学到了片鳞半爪，AlphaGo Zero 也在短短数天内极尽人类思维之精华，甚至青出于蓝，在和李世石与柯洁的对局中下出更为诡谲莫辨的棋风。 AI 在棋艺上的发挥更让我们坚信：人工智能可以成为人类精巧思维的绝佳助力。

AlphaGo 进化史

尽管为时尚早，AlphaGo Zero 已朝着目标迈出关键一步。如果我们能运用类似 AlphaGo Zero的技术到其他问题，例如:蛋白质折叠、减少能源消耗或者寻找革命性的新材料，所产生的突破将对整个社会造成深远影响。

1. AlphaGo Zero 中的增强学习

AlphaGo 的神经网络先用监督式学习模仿人类高手的操作，然后用强化学习来自我操练。现在我们革新了这一思路，单纯只用强化学习来训练 AlphaGo，无需人类数据、干预，不需要任何主观思想。人类被抛弃了，AlphaGo 成为了自己的老师。

和监督式学习相比，强化学习可以通过自己的经验训练自己，他能让 AI 在不需要人类专家的帮助下就能超越人类。

图 1. AlphaGo Zero 中的强化学习过程

图 2. AlphaGo Zero 中的蒙特卡洛树

图 3. AlphaGo Zero 的经验评估

图 4. AlphaGo Zero 和 AlphaGo Lee 在神经网络架构上的对比

图 5. 从 Alpha Zero 中新发现的围棋技术

2. AlphaGo Zero 训练的经验分析

经过对比可以很明显地看到，AlphaGo Zero 更精准，错误更少，超越 AlphaGo 600Elo。虽然将决策网络和价值网络结合在一起会稍微减少预测精准度，但换来的是减少错误量、提升对局表现，这一点又碾压 AlphaGo 600Elo。这其中有部分是计算性能提升的原因，决定性因素还是在于双神经网络结合，规整调节后使 AlphaGo Zero 的适用性更为广泛。

3. AlphaGo Zero 学到了啥?

图5展现AlphaGo Zero摸索新定式的过程。他通过完全随机的走子来理解围棋中的复杂概念，其中包括:布局、手筋、死活、劫、官子、对杀、先手、棋形、势、实地等。就连征子这种会把人类高手绕进去的概念，他也能稍加思索后理解通透。

4. AlphaGo Zero 的最终表现

我们对 AlphaGo Zero 训练了大约 40 天的时间。在整个过程中，一共生成了两千九百万对局，总结出 40 个残差网络，学习曲线如下 6a 所示。

为了评估 AlphaGo Zero 的训练成果，我们把一家子人全都拉了出来：AlphaGo Fan、AlphaGo Lee、AlphaGo Master，每个AI每步都有5秒的考虑时间;AlphaGo Zero和AlphaGo Master只有4块TPU，AlphaGo Fan和AlphaGo Lee则分布在176块GPU和48块TPU上。从图6b我们能发觉，AlphaGo Zero 以 5185 分遥遥领先他的前辈。

最后我们在 2 小时内用 100 局比赛测试了 AlphaGo Zero 和 AlphaGo Master 之间的水平差距，AlphaGo Zero 以 89:11 战胜了 AlphaGo Master。

5. 结论

我们的结果完全证明，纯粹的强化学习足以应对各种充满挑战的领域，无需人类样本或指导，只要有着一条条基础规则，AI 完全可以被训练到超人类水平，只需要几个小时的训练，就能碾压人类寒窗十几年的时光。

柯洁今天发微博，也是百感交集。

在围棋被发明后的这几千年里，人类对围棋的理解以各种形式散布在生活的方方面面。而AlphaGo Zero 从一张白纸开始，在短短数天内重新定义了围棋的知识体系，我们由衷地对这款最古老的游戏心生敬意。

本文整理翻译自：https://deepmind.com/blog/alphago-zero-learning-scratch/

贺岁杯神剧情：朴廷桓回赠勺子大礼柯洁”熟视无睹“憾负半目

柯洁：忘掉荣誉迎接新征程期待应氏杯更上层楼

柯洁：拿的冠军已经特别多了不会给自己增加负担

19天12盘棋，柯洁“赶路的时间就算放松了”

柯洁：数学像天书崔精和我差不多

柯洁：还没被清华大学录取，围棋国手平时都用一款软件练棋

於之莹：不想对柯洁他气场太强柯洁：好胜负

柯洁：以前的一些下法都被AI给抛弃了

柯洁：专心去做一件事情赛制改革后会增加看点

龙星战，柯洁，猫戏老鼠，玩蒙一力辽、金志锡！

柯洁“七冠王”仍不如李昌镐的？三点理由无一站得住脚

林建超：从华为学到很多柯洁：希望明年队友还在

三星杯曲终人散，柯洁，疑似成为末代冠军

柯洁：拿世界冠军意义重大 185万奖金终于缓解了房贷压力

韩棋迷：柯洁“世界第一人”的地位无可动摇

柯洁，明明已经赢了，怎么会输掉

韩棋院：安国铉是中国杀手柯洁：我都没研究他棋谱

柯洁，你姓柯；“烂柯杯”，会姓柯吗？

金志锡夺得首届龙星战冠军，柯洁、一力辽在等着他

柯洁，“烂柯杯”中国围棋冠军赛会与你有缘吗？

相關文章:

贺岁杯神剧情：朴廷桓回赠勺子大礼 柯洁”熟视无睹“憾负半目

柯洁：忘掉荣誉迎接新征程 期待应氏杯更上层楼

柯洁：拿的冠军已经特别多了 不会给自己增加负担

19天12盘棋，柯洁“赶路的时间就算放松了”

柯洁：数学像天书 崔精和我差不多

柯洁：还没被清华大学录取，围棋国手平时都用一款软件练棋

於之莹：不想对柯洁他气场太强 柯洁：好胜负

柯洁：以前的一些下法都被AI给抛弃了

柯洁：专心去做一件事情 赛制改革后会增加看点

龙星战，柯洁，猫戏老鼠，玩蒙一力辽、金志锡！

柯洁“七冠王”仍不如李昌镐的？三点理由无一站得住脚

林建超：从华为学到很多 柯洁：希望明年队友还在

三星杯曲终人散，柯洁，疑似成为末代冠军

柯洁：拿世界冠军意义重大 185万奖金终于缓解了房贷压力

韩棋迷：柯洁“世界第一人”的地位无可动摇

柯洁，明明已经赢了，怎么会输掉

韩棋院：安国铉是中国杀手 柯洁：我都没研究他棋谱

柯洁，你姓柯；“烂柯杯”，会姓柯吗？

金志锡夺得首届龙星战冠军，柯洁、一力辽在等着他

柯洁，“烂柯杯”中国围棋冠军赛会与你有缘吗？

6连斩！中国先锋胜李世石韩国仅剩光杆司令 柯洁：好像又不用上场

李钦诚：AI可分析出胜负手 柯洁：完全向AI学习

中盘战胜谢尔豪，四年三进三星杯决赛，柯洁：再次见证我的传奇

柯洁：围甲争冠已放弃治疗 今年拼命拿世界冠军

朱国平：龙星战是友谊纽带 柯洁：冠军对抗再努力

打脸了！柯洁，你怎么又输棋？

柯洁：自己这组棋手都很强 廖元赫：希望进四强

围甲天津站开幕 柯洁：我们仍是夺冠热门

柯洁，我错了，不应该把小鱼儿弄哭！

世界双人围棋争霸赛：柯洁

08.15 中韩一哥深夜峰会 柯洁：我的棋下得太好了

AI大赛绝艺直落三局淘汰AQ会师星阵 柯洁：二子以后难

百灵杯四强新鲜出炉，柯洁、辜梓豪、陈耀烨围剿申真胥

柯洁：说实话我蛮讨厌AI 但还是得用其训练

柯洁：年纪越来越大要珍惜 常昊：与大竹老师很有缘

点评德韩大战情绪过激被辱骂，柯洁：再也不谈世界杯！

足球非黑白，多有无间道？柯洁：再也不谈世界杯！

柯洁：我看不惯中国人骂韩国脏 韩国是亚洲之光

柯洁：韩国是亚洲之光

柯洁：我就看不惯骂韩国队脏的 别和我扯02世界杯

06.28 柯洁：我就看不惯骂韩国队脏的 别和我扯02世界杯

柯洁：我就看不惯骂韩国队脏的！别和我扯02世界杯，已对德国脱粉

围棋汽车拉力赛花絮：柯洁“左拥右抱”

柯洁：没注意是决赛赢得幸运 望龙星奖金能提高

04.27 柯洁“食言”，再战人工智能

柯洁 “火力全开”

天才女排不辞而别赴美深造，郎平痛失爱将，宣布她被永久除名

凭什么曼城球员不配拿最佳球员？B席硬怼利物浦！

《绝杀慕尼黑》：冠军是怎样炼成的？

现场图官宣！广州首座世界级专业足球场动工，世界500强企业掌控

于汉超撞上了恒大和中超公司硬刚的枪口，被开除只是杀鸡儆猴！

恒大十年最佳阵容出炉，里皮携手孔卡入选，高拉特与广州塔落选！

NBA你摊上事儿了，摊上大事儿了

鲁能锋线新李金羽浮出水面，曾用绝杀救主，多次入选国字号球队

皇马之梦破碎！约维奇恐被皇马出售，这两支球队将是他很好的选择

尤文不存在c罗依赖症，阵中最重要之人也不是c罗，这位才是未来

投票：你支持恒大开除于汉超的决定吗

【恒大官方开除于汉超】是被恒大开除的第一位球员也是中超第二人

前恒大新星正式回归广东！16岁便进一队，离队2年后亲手弑旧主

恒大执行队规开除于汉超 专业人士：恒大一贯从严管理

我的足球故事（2）：从赤脚踢球到拥有第一双球鞋

法国国脚的红蓝同步-从重金主将到被抛售的传说

毫无是非观！名记洗白于汉超：很多人都遮挡过车牌，知错能改就好

法国继续封锁，内马尔禁止回俱乐部，麻烦大了

粉丝能有多狂热？跪拜只是入门，梅西C罗都饱受骚扰

上港后防新核心人选浮出水面，表现可圈可点，未来可进李铁国足

挑战底线零容忍！恒大连夜开除于汉超 许家印再显铁腕治军

判若两人！秦升回申花后开始魔鬼训练，如今瘦身效果让队友都意外

铁腕!许家印不许任何人替于汉超求情,卡纳瓦罗也被挡回,队员错愕

46岁泽罗伯托晒肌肉照，身材健硕引关注，球迷：来中超可再踢5年

罗斯不伤，科炮联手，三少留雷霆，科詹总决赛交锋，美媒问选哪个

做错了？恒大女球迷因曝光于汉超视频遭开除会籍！社交账号被攻陷

戴罪立功？粤媒记者称李铁很喜欢于汉超，郜林呼吁社会宽容对待

又栽一个，继郭昊文后，曾繁日也被曝出作风问题，如何能打好球？

恒大早想清洗于汉超！负面新闻缠身杀鸡儆猴，涂改车牌另有内情！

卡纳瓦罗本想为于汉超求情,无奈社会影响太大,许家印强硬指示开除

富力老板炮轰足协不愿放权，足协连夜作出回应，这波你站谁？

恒大俱乐部人士：本着实事求是精神，对于汉超不袒护、不姑息

于汉超想“自由转会”估计很难，广州恒大还掌握主动权

贺岁杯神剧情：朴廷桓回赠勺子大礼柯洁”熟视无睹“憾负半目

柯洁：忘掉荣誉迎接新征程期待应氏杯更上层楼

柯洁：拿的冠军已经特别多了不会给自己增加负担

柯洁：数学像天书崔精和我差不多

於之莹：不想对柯洁他气场太强柯洁：好胜负

柯洁：专心去做一件事情赛制改革后会增加看点

林建超：从华为学到很多柯洁：希望明年队友还在

韩棋院：安国铉是中国杀手柯洁：我都没研究他棋谱

6连斩！中国先锋胜李世石韩国仅剩光杆司令柯洁：好像又不用上场

李钦诚：AI可分析出胜负手柯洁：完全向AI学习

柯洁：围甲争冠已放弃治疗今年拼命拿世界冠军

朱国平：龙星战是友谊纽带柯洁：冠军对抗再努力

柯洁：自己这组棋手都很强廖元赫：希望进四强

围甲天津站开幕柯洁：我们仍是夺冠热门

08.15 中韩一哥深夜峰会柯洁：我的棋下得太好了

AI大赛绝艺直落三局淘汰AQ会师星阵柯洁：二子以后难

柯洁：年纪越来越大要珍惜常昊：与大竹老师很有缘

柯洁：我看不惯中国人骂韩国脏韩国是亚洲之光

柯洁：我就看不惯骂韩国队脏的别和我扯02世界杯

06.28 柯洁：我就看不惯骂韩国队脏的别和我扯02世界杯

柯洁：没注意是决赛赢得幸运望龙星奖金能提高

恒大执行队规开除于汉超专业人士：恒大一贯从严管理

挑战底线零容忍！恒大连夜开除于汉超许家印再显铁腕治军