DeepMind:AI的推理能力比人類還差得遠著了

AI在完成特定任務方面已經相當不錯了,但是到擁有通用智能還有很長的路要走,而正是這種智能可以讓AI以與人類甚至動物相同的方式在這個世界中存在。

通用智能的關鍵要素之一是抽象推理,即能夠超越“這裡和現在”思考,看到更多細微差別的模式和關係,並進行復雜的思考。近日,專注於AI的谷歌子公司DeepMind的研究人員發表了一篇論文,詳細介紹了他們試圖衡量各種AI抽象推理能力的努力。

人類使用相當直觀的視覺智商測試來衡量抽象推理能力。一個流行的測試稱為Raven’s Progressive Matrices。這個測試有多行圖像,最後一行缺少一個圖像。測試者可以根據前面完整行的模式選擇接下來應該出現的圖像。

測試並沒有直接告訴被測試人員應該怎麼找出缺少的圖像,但利用抽象推理能力,被測試人員會考慮與每個圖像中的對象數量、顏色或位置有關的事情。

為了將此測試應用於AI,DeepMind研究人員創建了一個可以生成獨特矩陣問題的程序。然後,他們訓練各種AI系統來解決這些矩陣問題。

最後,他們測試了系統。在某些情況下,他們使用與訓練集相同的抽象因素的測試問題,比如在需要考慮每個圖像中形狀數量的問題上訓練和測試AI。在其他情況下,他們使用的測試問題包含了與訓練集中不同的抽象因素。例如,他們可能會對需要考慮每個圖像中的形狀數量的問題進行AI培訓,然後對需要考慮形狀位置以確定正確答案的問題進行測試。

測試結果不是很好。當訓練問題和測試問題集中在相同的抽象因素時,系統表現良好,75%的時間可以正確回答問題。然而,如果測試集與訓練集不同,即使方差很小(例如,對具有深色對象的矩陣進行訓練而對具有淺色對象的矩陣進行測試),AI的表現也會非常差。

也就是說,該團隊的AI IQ測試顯示,即使是當今最先進的AI也解決我們尚未訓練它們的問題。這意味著我們可能距離通用AI還有很長的路要走。不過好消息是現在至少我們有一種直觀的方式來監控進展,而且從AI的整體發展來看,為AI創建基準並評估現在的進展情況和什麼可以改善,是開發過程的重要部分。

DeepMind的研究人員還計劃繼續研究某些模型生成的解決方案並提高通用化能力。

抽象推理並不是AI試圖匹敵人類智能和能力的唯一挑戰。還有一個挑戰是語言歧義,教會計算機正確解讀交流中的語境是一項複雜而艱鉅的任務。例如,計算機必須學會區分“吃意大利麵配奶酪”和“吃意大利麵配狗”的不同含義。

可是,很多人覺得Siri和Google Assistant無所不能,這是怎麼回事?

的確,以Siri和Google Assistant為代表的智能助手是與消費者交互的最常見的AI工具之一,這些工具越來越具有競爭力,有時甚至超越人類的能力。但是,能通過圖靈測試的AI工具並不意味著該工具一定具有人類的分析推理能力。

根據DeepMind研究人員的說法,像人類智商測試一樣,過多的準備工作可能會導致結果偏差,測試神經網絡的能力可能很難評估,“鑑於它們具有記憶能力和利用表面統計線索的能力”。智能助手已經獲得大量數據,用來幫助幾乎每個可以想象的區域的消費者,但是當出現未知問題仍然無法解決。

編 譯:信軟網


分享到:


相關文章: