AI號外:谷歌 DeepMind AI 敗了——在數學面前輸給了高中生

地址:https://mp.weixin.qq.com/s/_5Rc8gxK3fnhooH1H9VWmA

如今,新聞媒體界充斥著AI在從下圍棋到解讀磁共振影像(MRI)的諸多任務中完勝人類專家的報道。有人可能認為,智能機器處理數學起來應該很輕鬆――但數學仍然是AI相對未攻克的一個領域。DeepMind的新論文《分析神經模型的數學推理能力》讓一個神經網絡接受高中數學考試,結果讓人大跌眼鏡:AI考試不及格。


AI號外:谷歌 DeepMind AI 敗了——在數學面前輸給了高中生



人類運用各種認知技能來解答簡單的數學替換問題:

  • 將字符解析為諸多實體,比如數字、算術運算符、變量(共同構成函數)和單詞(確定問題)。
  • 規劃(比如,確定以正確的順序合成的函數)。
  • 使用子算法來組成函數(加法和乘法)。
  • 利用工作記憶來存儲中間值(比如組成h(f(x)))。
  • 通常運用規則、轉換、過程和公理等方面獲得的知識。


DeepMind通過先收集由不同類型的數學問題組成的數據集來訓練和測試神經模型。他們不是採用眾包(crowd-sourcing)方法,而是合成數據集以生成大量的訓練示例,以控制難度級別,並縮短訓練時間。比如說,該團隊使用一種“自由形式”的文本格式,確保可以在數據集當中容納樹形圖或圖形類問題。

該數據基於英國國立學校的數學課程(直至16歲),涵蓋代數、算術、微積分、比較、測量、數字、操縱多項式和概率。

雖然以前有過使用神經網絡驅動方法來處理數學的研究,但DeepMind將自己侷限於一般的序列處理架構,以便為將來的比較提供最一般化的基準。該團隊選擇了LSTM(長短期記憶)和Transformer架構用於這次考試。

DeepMind在數學問題上測試了兩個LSTM模型:簡單LSTM(Simple LSTM),用問題數據加以訓練,每次一個字符,使用獨熱編碼(one-hot encoding);以及注意力LSTM(Attentional LSTM),表示常用神經機器翻譯編碼器/解碼器架構,如下圖所示。


AI號外:谷歌 DeepMind AI 敗了——在數學面前輸給了高中生



與此同時,Transformer模型是一個序列到序列模型,它在機器翻譯中獲得了最出色的結果。其一般的問題解決邏輯如下所示。


AI號外:谷歌 DeepMind AI 敗了——在數學面前輸給了高中生



研究人員觀察到,簡單LSTM、注意力LSTM和Transformer這三個模型在數學考試中的整體表現大致相同。然而結果證明,Transformer模型處理涉及以下的問題時更勝一籌:

  • 用數量一樣的參數進行更多的計算
  • 擁有較淺的架構(擁有更好的梯度傳播)
  • 擁有順序型的內部“存儲器”,更容易處理數字序列之類的數字對象。


這些模型在包括40道問題的考試中的結果其正確率都在35%左右:


AI號外:谷歌 DeepMind AI 敗了——在數學面前輸給了高中生



這在任何高中成績單上都是不及格的分數。詳細結果如下:

AI號外:谷歌 DeepMind AI 敗了——在數學面前輸給了高中生


為什麼人工智能無法答對高中數學題呢?

原來,最主要的原因是AI“看不懂”題目。DeepMind旗下的AI雖然已經擁有了極強的機器翻譯能力,但依然抵不住數學問題的複雜性和語言多樣性的壓力。

對AI而言,數學符號和題目本身就很難理解,對人類而言,要解決數學問題,要應用到的不只有計算能力,還有各種各樣的認知技能。比如理解題幹,需要將文字或圖標轉換為算術運算符。

而對於依賴大量數據分析來尋求解決問題規律的AI而言,數學語言的複雜性是一座難以逾越的高山。

其次,AI“舉一反三”的能力,也無法與人類一較高下。它只能處理一些內部存儲的問題,無法超越已有的環境去理解新的東西。

而人類在解決數學問題時,會進行推理,從已知的公理中找到最佳策略,而在具體的運算過程中,必須利用工作記憶來完成運算。

據DeepMind研究人員總結,現階段AI在推論的能力上,還不及人類。在解答問題時,人腦動用了多種認知能力,包括將符號分類、演算、運用工作記憶來儲存中間值、還要運用學到的規則或定理等。

相反,AI則擅長模式比對、機器翻譯和強化式學習,但彈性遠不及人腦。它們不太能將事物推論到已有經驗的環境外,更無法處理刻意亂輸入的資訊。

不過,雖然目前AI還無法當數學老師,但他們已經稱霸了相當多的領域。除了圍棋以外,DeepMind旗下的AI又在遊戲《星際爭霸2》(StarCraft II)的測試賽中,5-0橫掃世界頂尖職業選手。

牛旦教育編外音:

AI強項在於規則和條件,在於數學系窮舉,條件達不到,模型不符合就容易錯,是機械式的“死思考”。而人類強項除了創造性、跳躍性的抽象思維,更厲害的是場景化的關聯思維和模糊思維,而且是生物性的“活思考”。從目前來看,人類思維活動處於引領地位,而AI,從屬於人類,其價值在於工具性應用。


分享到:


相關文章: