一隻狗(AlphaGo Zero)憑什麼改寫人類圍棋史?就問你服不服?

傳說,有一位叫“AlphaGo Zero”的棋手,有一天,他得到一本“獨門棋譜”,從一名圍棋小白,僅用3天時間,快速修煉成“曠世圍棋天才”,打敗其他圍棋高手,在圍棋界一時風光無限,此後“獨孤求敗”,好不孤獨......

一隻狗(AlphaGo Zero)憑什麼改寫人類圍棋史?就問你服不服?

一、雜誌報道

倫敦當地時間10月18日18:00(北京時間19日01:00),AlphaGo再次登上世界頂級科學雜誌——《自然》。

二、阿爾法狗再進化:40天訓練後以89:11擊敗舊系統

10月19日消息,谷歌旗下人工智能研究部門DeepMind發佈了新版AlphaGo(阿爾法狗)軟件,這款名為AlphaGo Zero的系統,可利用一種名為“強化學習”的技術,通過自我對弈進行學習。據悉在不斷訓練的過程中,這套系統開始靠自己的能力學會圍棋中的一些高級概念。

三、AlphaGo Zero系統擊敗前兩任(AlphaGo)系統

前情回顧:大家還記得新聞媒體鋪天蓋地報道的“圍棋人機大戰”麼?特指韓國圍棋九段棋手李世石、中國圍棋九段棋手柯潔分別與人工智能圍棋程序“阿爾法圍棋”(AlphaGo)之間的兩場比賽。

一隻狗(AlphaGo Zero)憑什麼改寫人類圍棋史?就問你服不服?

人機大戰 - 李世石

1AlphaGo Lee系統

2016年3月9日至15日,在韓國首爾進行的五番棋比賽,阿爾法圍棋以總比分4:1戰勝李世石;這套獲勝的系統則為AlphaGo Lee系統。

一隻狗(AlphaGo Zero)憑什麼改寫人類圍棋史?就問你服不服?

人機大戰 - 柯潔

2AlphaGo Master系統

2017年5月23日至27日,在中國嘉興烏鎮進行的三番棋比賽,阿爾法圍棋以總比分3:0戰勝世界排名第一的柯潔。這套獲勝的系統則為AlphaGo Master系統。

3AlphaGo Zero系統

經過3天的訓練後,AlphaGo Zero系統已經可以擊敗AlphaGo Lee,(也就是去年擊敗韓國頂尖棋手李世石的那套系統)而且比分高達100:0。

經過40天訓練後,它總計運行了大約2900萬次自我對弈,使得AlphaGo Zero得以擊敗AlphaGo Master(今年早些時候擊敗世界冠軍柯潔的系統),比分為89:11。

一隻狗(AlphaGo Zero)憑什麼改寫人類圍棋史?就問你服不服?

四、AlphaGo Zero學習過程

通過結果表明,具體到不同技術的研究成果,人工智能領域仍有很大的學習和發展空間。

首先為了更好的區分和辨別不同的AlphaGo系統,我們來為他們取個非常接地氣的名字:

  • AlphaGo 第一代:AlphaGo Fan,稱之為大狗;

  • AlphaGo 第二代:AlphaGo Lee,稱之為二狗;

  • AlphaGo 第三代:AlphaGo Master,稱之為三狗;

  • AlphaGo 第四代:AlphaGo Zero,稱之為四狗。

4.2 AlphaGoZero運用神經網絡和搜索算法重組

一隻狗(AlphaGo Zero)憑什麼改寫人類圍棋史?就問你服不服?

AlphaGo Zero強化學習下的自我對弈

經過幾天的訓練,AlphaGoZero(四狗)完成了近5百萬盤的自我博弈後,已經可以超越人類,並擊敗了此前所有版本的AlphaGo。

一隻狗(AlphaGo Zero)憑什麼改寫人類圍棋史?就問你服不服?

AlphaGo Zero習得知識的過程-3h

一隻狗(AlphaGo Zero)憑什麼改寫人類圍棋史?就問你服不服?

AlphaGo Zero習得知識的過程-19h

一隻狗(AlphaGo Zero)憑什麼改寫人類圍棋史?就問你服不服?

AlphaGo Zero習得知識的過程-70h

DeepMind團隊在官方博客上稱,Zero用更新後的神經網絡和搜索算法重組,隨著訓練地加深,系統的表現一點一點地在進步。自我博弈的成績也越來越好,同時,神經網絡也變得更準確。同時還發現AlphaGoZero還獨立發現了遊戲規則,並走出了新策略,為圍棋這項古老遊戲帶來了新的見解。

恩,“四狗”果然是“曠世圍棋天才”。

4.3 AlphaGo-Zero的訓練時間軸

一隻狗(AlphaGo Zero)憑什麼改寫人類圍棋史?就問你服不服?

AlphaGo-Zero的訓練時間軸-0天

一隻狗(AlphaGo Zero)憑什麼改寫人類圍棋史?就問你服不服?

AlphaGo-Zero的訓練時間軸-3天

一隻狗(AlphaGo Zero)憑什麼改寫人類圍棋史?就問你服不服?

AlphaGo-Zero的訓練時間軸-21天

一隻狗(AlphaGo Zero)憑什麼改寫人類圍棋史?就問你服不服?

AlphaGo-Zero的訓練時間軸-40天

(1)首先,AlphaGo Zero僅用棋盤上的黑白子作為輸入,而前代則包括了小部分人工設計的特徵輸入。

(2)其次,AlphaGoZero僅用了單一的神經網絡。在此前的版本中,AlphaGo用到了“策略網絡”來選擇下一步棋的走法,以及使用“價值網絡”來預測每一步棋後的贏家。而在新的版本中,這兩個神經網絡合二為一,從而讓它能得到更高效的訓練和評估。

(3)最後,AlphaGoZero並不使用快速、隨機的走子方法。在此前的版本中,AlphaGo用的是快速走子方法,來預測哪個玩家會從當前的局面中贏得比賽。相反,新版本依靠地是其高質量的神經網絡來評估下棋的局勢。

4.4 AlphaGo ZeroAlphaGo Master分析比較

1

AlphaGo Zero可自由切換

AlphaGo Master(三狗)使用了很多和AlphaGo Zero(四狗)相同的開發技術,但它需要首先利用人類的數據進行訓練,隨後才切換成自我對弈,而“四狗”則不需要。

值得注意的是,雖然AlphaGo Zero(四狗)在幾周的訓練期間學會了一些關鍵概念,但該系統學習的方法與人類有所不同。

2AlphaGo Zero僅需4個TPU的機器

另外,“四狗”也比前幾代系統更加節能,AlphaGo Lee(二狗)需要使用幾臺機器和48個谷歌TPU機器學習加速芯片。其上一代AlphaGo Fan(大狗)則要用到176個GPU芯片。AlphaGo Zero只需要使用一臺配有4個TPU的機器即可。

一隻狗(AlphaGo Zero)憑什麼改寫人類圍棋史?就問你服不服?

五、專家評價AlphaGo

“AlphaGo在兩年內達到的成績令人震驚。現在,AlphaGoZero是我們最強版本,它提升了很多。Zero提高了計算效率,並且沒有使用到任何人類圍棋數據,”AlphaGo之父、DeepMind聯合創始人兼CEO戴密斯·哈薩比斯(DemisHassabis)說,“最終,我們想要利用它的算法突破,去幫助解決各種緊迫的現實世界問題,如蛋白質摺疊或設計新材料。如果我們通過AlphaGo,可以在這些問題上取得進展,那麼它就有潛力推動人們理解生命,並以積極的方式影響我們的生活。”

一隻狗(AlphaGo Zero)憑什麼改寫人類圍棋史?就問你服不服?

總結:

需要補充的一點是,對於研發AlphaGo的DeepMind公司來說,目前正積極與英國醫療機構和電力能源部門合作,提高看病效率和能源效率。而且圍棋並不是AlphaGo的終極奧義,他們希望利用人工智能推動人類社會進步,目標始終是要利用AlphaGo打造通用的、探索宇宙的終極工具。同時我們期待通過AlphaGoZero的提升,讓我們看到利用人工智能技術改變人類命運的突破。


分享到:


相關文章: