一隻“阿爾法狗”的科技征途

一隻“阿爾法狗”的科技征途

防走失,電梯直達安全島報人劉亞東A

一只“阿尔法狗”的科技征途

2016年,谷歌圍棋人工智能“阿爾法狗”(AlphaGo)以4比1的成績戰勝世界圍棋冠軍李世石,這場人機大戰成為人工智能史上一座新的里程碑。

近日,美國計算機學會(ACM)宣佈,將2019年ACM計算獎授予AlphaGo研發團隊領導者David Silver,以表彰他為計算機遊戲表現帶來的突破性進展。

“在專用人工智能向通用人工智能發展過程中,AlphaGo是一個重要階段。”北京大學教授、北京智源人工智能研究院院長黃鐵軍告訴《中國科學報》。

從深藍到“阿爾法狗”

人機對弈,AlphaGo並不是首例。

就計算機的“棋藝”而言,十幾年前IBM的“深藍”與AlphaGo相比,也不能同日而語。儘管如此,1997年“深藍”擊敗了當時的國際象棋冠軍卡斯帕羅夫,震驚了當時的學術界。

“深藍的算法核心是暴力搜索。”中國科學院自動化研究所研究員趙冬斌告訴《中國科學報》,其原理是生成儘可能多的走法,執行儘可能深的搜索。

採用的alpha-beta剪枝算法,可以快速削減搜索的路徑,並不斷對局面進行評估,找到最優走法。

換言之,它每走一步,幾乎都是在遍歷後續所有可能的情況下作出的決策,因此,很多人認為這是計算機的勝利,而不是人工智能的勝利。

而AlphaGo之所以能達到人類頂尖棋手的棋藝水平,依靠的是“自學成才”。

“圍棋是一項變數極多、充滿不確定性的競技活動。下棋的可能性都是一個幾乎無法窮盡的量級。棋手起手就有361種落子選擇。理論上,如果不考慮限制條件,棋盤狀態共有3的361次方種,下法共有361階乘種選擇,這個數字大約是10的768次方,幾乎是無窮大。要知道人類已知宇宙中的原子數量,也不過是10的80次方。”

清華大學計算機科學與技術系教授孫富春告訴《中國科學報》,AlphaGo 在某種程度上部分突破了人類認知學習的能力,原理上可以習得包括圍棋在內的其他觀測信息是完備的、狀態動作空間是可數的各種人類技藝,甚至展現出“直覺”判斷能力。

除了與人類越來越接近的“頭腦”之外,AlphaGo的學習速度之快也遠遠超出人們的想象,其進步的空間似乎難以估量。

“感覺就像一個有血有肉的人在下棋一樣,該棄的地方也會棄,該退出的地方也會退出,非常均衡的一個棋風,真是看不出出自程序之手。”柯潔曾在接受媒體採訪時表示,AlphaGo有好幾次落子極其“非常規”,許多專業棋手都表示“看不懂”。

2017年,AlphaGo進一步升級。在《自然》發表的一篇研究論文中,Silver 團隊報告了新版程序 AlphaGo Zero:從空白狀態學起,在不利用人類任何圍棋比賽數據作為訓練數據的條件下,它能夠迅速通過2900萬次自我博弈、自學圍棋,並以 89比11 的戰績擊敗“前輩”。

“AlphaGo Zero從驚人的海量博弈數據中習得能力。如果AlphaGo Zero有內心世界,看到人類落完一步棋,他或許會微微一笑,心想‘這招我昨天剛下過’。”浙江大學人工智能研究所所長吳飛調侃道。

與此同時,AlphaGo Zero在國際象棋、圍棋等遊戲中都取得了超人的表現,展現了前所未有的遊戲方法的普適性。

“阿爾法狗”的“三駕馬車”

自AlphaGo打敗李世石後,人們驚奇地從公開的程序中發現:打敗這些圍棋高手的不僅僅是計算機強大的計算能力,更依賴其精妙的算法。

吳飛解釋說,AlphaGo的算法主要依靠強化學習、深度學習和蒙特卡洛樹搜索“三駕馬車”並駕齊驅,而這也是其中的核心技術。

在南京大學計算機科學與技術系教授王崇駿看來,強化學習讓AlphaGo有了自學能力,深度學習讓AlphaGo通過數據驅動的機器學習有了估值量化能力,蒙特卡洛樹則是一個連接所有技術和動作的框架。

例如,在圍棋博弈中,“局面判斷”用於衡量某一局面的價值,越大的值表示對當前行動的選手越有利。“最優策略”是通過在某局面下選擇能帶來最大價值的動作來獲得。

在AlphaGo的強化學習中,科學家使用策略函數和局面函數進行度量。有了這兩個估值函數,機器在搜索的時候儘量選擇估值更大的行動,達到縮小思考範圍的目的。

同時,即使在未達到終局的情況下,也可以依靠局面函數對當前局勢優劣做判斷。

由於大部分博弈遊戲狀態空間巨大,嚴格計算評估函數無法實現。利用深度學習和大量數據,AlphaGo可以自動找到特徵,同時擬合出估值函數。

而蒙特卡洛樹搜索是集以上技術於一身的搜索框架,通過反覆模擬和採樣對局過程來探索狀態空間。

“蒙特卡洛樹搜索的特點是非常容易並行、可任何時候停止,其引入了隨機性採樣而減小估值錯誤帶來的負面影響,並且可以在隨機探索的過程中,結合強化學習,自學式地調整估值函數,讓算法越來越聰明。”王崇駿告訴《中國科學報》。

分析AlphaGo成功的原因,趙冬斌認為,深度神經網絡在其中起到了重要作用。“傳統的基於規則的計算機圍棋方法只能識別固定的棋路,這類似於背棋譜。基於深度學習的AlphaGo自動提取棋譜局面特徵並將其有效地組合在一起, 極大增強了對棋譜的學習能力。”

其次,局面的準確評估也是AlphaGo成功的關鍵。價值網絡和快速走子網絡在局面評估時互為補充,能夠較好地應對對手下一步棋的不確定性,對得到更加精確的評估結果至關重要。

此外,硬件配置的大幅提升也功不可沒。AlphaGo採用了異步多線程搜索,用CPU執行模擬過程,用GPU計算策略網絡和價值網絡。最終單機版本AlphaGo使用了48個CPU和8個GPU,分佈式版本的AlphaGo則採用了1202個CPU和176個GPU。

正是這些計算機硬件的支持,才得以讓AlphaGo發揮出強大的實力。

人工智能發展的一小步

在AlphaGo誕生後的幾年中,其背後的神經網絡、深度學習、蒙特卡洛樹搜索法等技術,開始從“下棋”這樣的場景,延伸到更多具有商業化價值的場景中。

在中國,這些技術催生了遊戲領域人工智能的研究和發展。騰訊旗下游戲王者榮耀的“覺悟”、微軟亞洲研究院的麻將“Suphx”以及啟元的星際爭霸“指揮官”等虛擬“玩家”一時間如雨後春筍般湧現。

這些技術還推動了其他領域包括機器人、智能駕駛、智能製造、電力優化、量化金融、智慧醫療等縱深應用領域的技術進步,包括且不侷限於提高英國電網的效率、降低谷歌數據中心的能耗,以及為歐洲航天局設計太空探測器的軌道等。

不過,AlphaGo的勝績是否代表著人工智能的勝利?答案是否定的。

“AlphaGo的勝利,只能說明這個算法在圍棋等比賽中戰勝了人類。但是,就人工智能的發展而言,幾乎所有人都認同目前人工智能發展水平還處在初級階段。”王崇駿說。

他表示,目前人工智能算法大多依賴高質量的海量數據,需要的功率也遠高於人類大腦的能耗水平,同時也很難應用於多種場景。

“一個明顯的例子就是,AlphaGo的實現方法在明確定義的環境下效果明顯,而在開放環境下,結果往往不盡如人意。比如AlphaGo下圍棋很厲害,但面對圖像識別問題肯定就不行了。”

趙冬斌表示,在圍棋、麻將和其他具有類似評級制度的遊戲等測試平臺,或能客觀地衡量一些算法的人工智能水平,但是在某些難以量化的領域,很難對算法的智能水平給出客觀評價。

“比如,自動駕駛有5級劃分,但是不夠明確。駕駛涉及技術鏈條較長,包括定位、感知、預測、決策、規劃和控制等。若想全面衡量駕駛人工智能的水平,還需要更細緻的分類工作。”

在黃鐵軍看來,人類面臨的很多問題都是開放性問題。應對開放性挑戰,需要通用人工智能。

“AlphaGo是人工智能研究的一座里程碑,創造了一種能夠解決很多智能問題的通用方法,但還不是真正意義上的通用人工智能。人工智能已經走上了正確方向,但也才剛剛開始。”

一只“阿尔法狗”的科技征途
一只“阿尔法狗”的科技征途


分享到:


相關文章: