AlphaGo 0:100慘敗,柯潔:人類還是太多餘……

還記得年中在烏鎮舉行的人機棋賽嗎?人類最強棋手柯潔迎戰 Master 版本的AlphaGo,結果卻三局完敗。在此之前,AlphaGo 早已完虐世界各路棋手,無人能擋,圍棋這項被認為是人類最不可能被戰勝堡壘一般穩的競技,也被 AI 妥妥地拿了下來,於是,人類終於感受到了 AI 帶來的恐懼.....

AlphaGo 0:100慘敗,柯潔:人類還是太多餘……

從那以後,這個由谷歌旗下 DeepMind 團隊開發的人工智能,就沒有什麼大的動作,仿若是當日威震天下的江湖大俠,而今低調到閉門修煉,不沾塵世。已經把世界冠軍的頭銜握在手裡,它似乎已經成為無敵一般的存在。

當然,也有一部分人堅持AlphaGo的“神話”不會長期存在,隨著AI技術革命的不斷髮展,AlphaGo失敗也就是個時間問題,在人們都快淡忘這件事了,它終究敗北的消息傳來,而且還是0:100被完虐,可謂是慘不忍睹。這個消息也給了我們一個措手不及,這才不到半年,人類就誕生了一位比柯潔還要牛逼百倍的棋手,把世界第一圍棋 AI 的神話一舉打破?

當然不是。讓 AlphaGo 輸的如此之慘痛的不是別人,而正是 DeepMind 的新一代人工智能:AlphaGo Zero

AlphaGo 0:100慘敗,柯潔:人類還是太多餘……

這件事情最早刊登在本週《自然》上發表的一篇名叫論文 Mastering the game of Go without human knowledge報道,一款新版的 AlphaGo 計算機程序能夠從空白狀態起,在不需要任何人類輸入的條件下,迅速自學圍棋。這款新程序名叫 AlphaGo Zero,以100比0的戰績打敗了它的前任。

最可怕的事還是發生了,通過幾天的訓練——包括近500萬局自我對弈——AlphaGo Zero便能夠超越人類並打敗所有之前的AlphaGo版本。隨著程序訓練的進行,它獨立發現了人類用幾千年才總結出來的圍棋規則,還建立了新的戰略,為這個古老的遊戲帶來新見解。

AlphaGo 0:100慘敗,柯潔:人類還是太多餘……

但是,有些人類知識對於機器可能難以接受:他們要麼代價高昂,要麼太不可靠,要麼就是根本無法使用。所以,AI 研究的長期目標就是跳過這步,創造一個在不需要人類干預的情況下就能在高難領域具備驚人表現的算法。在我們最近發表在《nature》上的論文中,我們向這個目標又邁進了一步。

你可能已經瞭解到 AlphaGo 是世界上第一款在圍棋上擊敗世界冠軍的人工智能,但我們的的 最新版本——AlphaGo Zero,比 AlphaGo 性能更為強勁,可以當之無愧地說是史上最強圍棋手。

上個版本的 AlphaGo 還在用人類業餘和專業選手的對局來學習如何下圍棋,AlphaGo Zero 則 跳過這步,通過大量自我對弈來學習下棋。這使得他快速超越人類水平,並且連續吊打 AlphaGo 100次——我看你叫 AlphaGo Hundred 好了。

背後的原理也很簡單,我們使用了強化學習的一種新形式,讓 AlphaGo Zero成為自己的老師。起初他也只是一個完全不理解圍棋的人工智障,但在神經網絡和一款強力的搜索算法的幫助下,他通過不斷自我對弈、調整神經網絡,最後學會了如何預測步數,連連獲勝。

我們再拿這個已經強化過的神經網絡和搜索算法相結合,創造出更新、更牛逼的 AlphaGo Zero,然後繼續讓他自我對弈。每下一局,整個系統的性能就會稍稍提升一點,對局質量也 會加強,一個更精確、更完美的 AlphaGo Zero 隨即而生。

因為完全是在自我對弈的情況下學習,不受人類經驗教訓限制,AlphaGo Zero 比 AlphaGo 不知道高到哪裡去了。打一出生,AlphaGo Zero 就向世界最強選手: AlphaGo 學習。

和之前版本相比,概括下來有幾點不同:

  • AlphaGoZero單純使用圍棋的黑白子作為輸入,但AlphaGo還包含了少量人工對局的數據。

  • AlphaGo Zero 只用了一個神經網絡。AlphaGo 則用了兩個:決策網絡和價值網絡,前者用於決定下一步怎麼走,後者根據局勢來判斷誰會贏。AlphaGo Zero 把兩個神經網絡結合在一起,效率更高。

  • AlphaGoZero不使用“快速走子”——一種圍棋軟件慣用的預測方式,根據局勢來快速模擬下棋套路,預測勝者。而是使用高質量的神經網絡來評估自己下一步要走在哪兒。

很慚愧,看上去這些只是微小的變化,卻能實實在在地提升系統的性能,泛用性更高,算法優化也讓系統變得持久耐用。

AlphaGo 0:100慘敗,柯潔:人類還是太多餘……

硬件提升,功耗下降,AlphaGo Zero 效率更高

經歷成千上萬次自我對決,即便每次只學到了片鱗半爪,AlphaGo Zero 也在短短數天內極盡人類思維之精華,甚至青出於藍,在和李世石與柯潔的對局中下出更為詭譎莫辨的棋風。 AI 在棋藝上的發揮更讓我們堅信:人工智能可以成為人類精巧思維的絕佳助力。

AlphaGo 0:100慘敗,柯潔:人類還是太多餘……

AlphaGo 進化史

儘管為時尚早,AlphaGo Zero 已朝著目標邁出關鍵一步。如果我們能運用類似 AlphaGo Zero的技術到其他問題,例如:蛋白質摺疊、減少能源消耗或者尋找革命性的新材料,所產生的突破將對整個社會造成深遠影響。

1. AlphaGo Zero 中的增強學習

AlphaGo 的神經網絡先用監督式學習模仿人類高手的操作,然後用強化學習來自我操練。現在我們革新了這一思路,單純只用強化學習來訓練 AlphaGo,無需人類數據、干預,不需要任何主觀思想。

人類被拋棄了,AlphaGo 成為了自己的老師。

和監督式學習相比,強化學習可以通過自己的經驗訓練自己,他能讓 AI 在不需要人類專家的幫助下就能超越人類。

圖 1. AlphaGo Zero 中的強化學習過程

圖 2. AlphaGo Zero 中的蒙特卡洛樹

圖 3. AlphaGo Zero 的經驗評估

圖 4. AlphaGo Zero 和 AlphaGo Lee 在神經網絡架構上的對比

圖 5. 從 Alpha Zero 中新發現的圍棋技術

2. AlphaGo Zero 訓練的經驗分析

經過對比可以很明顯地看到,AlphaGo Zero 更精準,錯誤更少,超越 AlphaGo 600Elo。雖然將決策網絡和價值網絡結合在一起會稍微減少預測精準度,但換來的是減少錯誤量、提升對局表現,這一點又碾壓 AlphaGo 600Elo。這其中有部分是計算性能提升的原因,決定性因素還是在於雙神經網絡結合,規整調節後使 AlphaGo Zero 的適用性更為廣泛。

3. AlphaGo Zero 學到了啥?

圖5展現AlphaGo Zero摸索新定式的過程。他通過完全隨機的走子來理解圍棋中的複雜概念,其中包括:佈局、手筋、死活、劫、官子、對殺、先手、棋形、勢、實地等。就連徵子這種會把人類高手繞進去的概念,他也能稍加思索後理解通透。

4. AlphaGo Zero 的最終表現

我們對 AlphaGo Zero 訓練了大約 40 天的時間。在整個過程中,一共生成了兩千九百萬對局, 總結出 40 個殘差網絡,學習曲線如下 6a 所示。

AlphaGo 0:100慘敗,柯潔:人類還是太多餘……

為了評估 AlphaGo Zero 的訓練成果,我們把一家子人全都拉了出來:AlphaGo Fan、AlphaGo Lee、AlphaGo Master,每個AI每步都有5秒的考慮時間;AlphaGo Zero和AlphaGo Master只有4塊TPU,AlphaGo Fan和AlphaGo Lee則分佈在176塊GPU和48塊TPU上。從圖6b我們能發覺,AlphaGo Zero 以 5185 分遙遙領先他的前輩。

最後我們在 2 小時內用 100 局比賽測試了 AlphaGo Zero 和 AlphaGo Master 之間的水平差距,AlphaGo Zero 以 89:11 戰勝了 AlphaGo Master。

5. 結論

我們的結果完全證明,純粹的強化學習足以應對各種充滿挑戰的領域,無需人類樣本或指導, 只要有著一條條基礎規則,AI 完全可以被訓練到超人類水平,只需要幾個小時的訓練,就能碾壓人類寒窗十幾年的時光。

AlphaGo 0:100慘敗,柯潔:人類還是太多餘……

柯潔今天發微博,也是百感交集。

在圍棋被髮明後的這幾千年裡,人類對圍棋的理解以各種形式散佈在生活的方方面面。而AlphaGo Zero 從一張白紙開始,在短短數天內重新定義了圍棋的知識體系,我們由衷地對這款最古老的遊戲心生敬意。

AlphaGo 0:100慘敗,柯潔:人類還是太多餘……

本文整理翻譯自:https://deepmind.com/blog/alphago-zero-learning-scratch/


分享到:


相關文章: