AlphaGo在自我對弈時會不會陷入收斂?

遊優優

AlphaGo只是個程序,它沒有人的思維。人與人之間對弈時,會根據形勢變化,決定採取不同的對策,諸如不得貪勝、入界宜緩、窮寇勿追之類,但這些對人工智能來說沒有意義,因為它不會像人類一樣去思考:這手棋需不需要讓步?贏半目也是贏,有必要冒著風險去屠大龍嗎?

只要懂棋的人應該都能看出,AlphaGo在與人類棋手進行對弈時,不管是與李世石對弈的1.0版本,還是升級為Master的2.0版本,在優勢明顯時,它會採用“收斂”的著法,縮小雙方的勝負差距,就像故意放水似的,寧願選擇一些吃虧的變化,導致最後只贏半目到1目半。

這給人造成的錯覺就是,AlphaGo通人性,不想讓對手輸得太難看,所以就像職業高手與業餘棋手下指導棋一樣,控制著勝負走向,最終以最小差距取勝,給人類棋手留下足夠的面子。

職業棋手在與業餘棋手下指導棋時可能會這樣想,但AlphaGo絕對不會。之所以會出現優勢局面下它大踏步後退的情況,原因說起來其實非常簡單:AlphaGo的每手棋其實都是眾多著法中的一種選擇,通常對手一手棋出手後,AlphaGo的後臺會根據勝率顯示出多種選擇,清楚地標明從①到⑨等等,如果讓AlphaGo自己選擇的話,它根據系統設置會選擇勝率最高的那種,但他的人工臂是人類,就會有人性化的選擇。

明白了這個道理,就會對AlphaGo優勢下的退讓恍然大悟了吧,不是AlphaGo有這麼聰明、這麼人性化,而是它的人工臂、操盤手這麼去做的,給人的錯覺是AlphaGo真的很“智能”了。


聶衛平

因為我們不知道alphago使用的數學模型,因此只能通過人工智能通常使用的邏輯方法來推算。

一、機器學習。假如AL(簡稱了)使用的是機器學習的方法,而不是利用某種直接與圍棋有關的數學模型,那麼,AL產生的最終邏輯,往往是人類所不能理解的。從使用機械學習方法的兩個人工智能自主學習自主交流 ,產生人類不可理解的“語言”實驗來看,如果AL使用純粹的機器學習方式,我們將看不懂它下的棋。

二、我們能看懂它下的棋,而且能夠描述它收斂的特徵,那麼,這是明顯的概率數學模型的特徵。例如馬爾科夫鏈一類的方法。

三、基於報道,AL學習了大概棋譜。也就是它實際採用了機械學習的方法,建立自己的操盤風格。之後基於概率數學從眾多可能性中選擇一種操作方案。這是從成功率最大、或者最穩妥、或者佔用勢或子最多等多個條件因素之中形成的條件數學模型中做出選擇。這部分的特徵,可以通過下棋的結果觀察出來。在接近收官,它明顯是採用了保守的贏率最大的方案。

四、如果自我對弈,這將成為它自己的概率數學問題。也就是左手贏的概率大,還是右手贏的概率大問題。由於使用同樣模型,其概率為50%。也就是多下幾盤,左右手最終贏棋的概率逼近50%。它的收斂特徵是數學模型固定的。如果不改源程序,依然會體現出收斂特徵。

五、如果兩臺機器對弈,同樣程序,將產生同樣的概率結果。

但是如果有一臺機器改變算法或模型,這個結局待定。假設中國的人工智能需與AL對弈,在不瞭解它程序的前提下,可以利用聶老的思想轉化為數學模式,而不使用開始的機器學習的方式,之後的邏輯部分就算一致,我方也有勝算的可能性。

機器學習的方法是收斂逼近,尋找概率和勝率的平衡。但是,使用人為數學模型的優勢在於,重在看勢,求活即可。這才有勝算可能。


霹靂火76228767

剛才看了聶衛平老師的回答,應該說盡管聶老師是圍棋高手,但不精於人工智能。這個問題我來回答一下。首先聶老師對“收斂”估計是理解錯誤,當然也可能是我多想了。題主說的收斂應該是指人工智能算法裡的收斂。


收斂是必須的啊!不收斂反而是出問題了。

回過頭來說捏老提的問題。人工智能下棋,會根據勝率而不是根據勝的大小。人工智能只要確保勝利,下的會相對保守。舉個例子,比如當人工智能佔優勢時一步好棋,百分之九十九能大獲全勝,百分之一可能輸,而不走這步棋,百分之百贏,計算機就不會去走。而人類往往傾向於大獲全勝。因為至少一般情況下看不出輸的可能性。

人類的計算能力不如計算機。


陪孩子一起學數學

好像會。根據deepmine公開的論文,alphazero對李世石版alphago基本保持全勝,但自學200小時的alphazero對自學100小時的alphazero只保持勝率的優勢,以此遞推,勝率是收斂的。


分享到:


相關文章: