阿爾法狗出二代了,全面碾壓一代,來看看到底有多強

最近,谷歌DeepMind團隊在Nature發表了關於新一代圍棋AI“AlphaGo Zero”的論文,展示了強化學習在為其應用上的新突破。

和之前的Alpha Go版本相比,新版本不需要藉助人類經驗數據,完全依賴深度強化學習進行訓練,經過短短3天的訓練後,就能以100:0的成績擊敗曾經戰勝李世石的AlphaGo,40天以後就能超越所有的前代版本。

AlphaGo使用傳統的監督學習算法,首先要將大量人類對弈的棋譜作為輸入,讓AlphaGo從中學習;而AlphaGo Zero相比AlphaGo的一個顯著變化是,使用了無監督學習的強化學習算法,不再依賴棋譜輸入,僅僅需要基本的圍棋規則,便完全由零開始進行學習,徹底擺脫了人類想象力的限制。

(AlphaGo的學習方式)

阿爾法狗出二代了,全面碾壓一代,來看看到底有多強

(AlphaGo Zero的學習方式)

阿爾法狗出二代了,全面碾壓一代,來看看到底有多強

強化學習不依賴人類經驗數據的輸入,其在圍棋上的成功應用,讓人們看到了強化學習在其他同樣缺乏大量標註數據的領域的應用。

機器人越來越智能,那麼機器取代人類的日子也越來越近了。


分享到:


相關文章: