測量「智慧」的正確姿勢可能是?

測量「智慧」的正確姿勢可能是?

雷鋒網 AI 科技評論按:著名深度學習研究員、谷歌大腦研究員、Keras 庫作者(以及 Twitter 活躍分子)François Chollet 近期在 arXiv 上公開了一篇論文《The Measure of Intelligence》(arxiv.org/abs/1911.01547)。正如標題,這篇論文討論的是人類應該如何理解以及正確地測量生命體/智能體的智慧

François Chollet 對機器學習領域裡「大肆炒作模型在單個任務中的表現」的慣例非常不滿,他認為這並不能體現「智慧」。比如 CNN 家族在 ImageNet 圖像分類中超越人類、AlphaGo 在圍棋中擊敗人類、OpenAI Five 在 DOTA2 中擊敗人類、AlphaStar 在星際 2 中擊敗人類,諸如此類的學術研究進展,即便確實是在非常複雜的任務中取得了比人類更好的表現,我們也無法認可這些模型就擁有了「智慧」。相比之下,烏鴉、海豚之類的動物更被人類認為是「有智慧」的。所以,AI 系統是否擁有「智慧」的標準可能是什麼樣的,我們又應該用什麼樣的方法測量 AI 系統,這就是 François Chollet 在這篇論文中著重討論的。

测量「智慧」的正确姿势可能是?

AI 研究員 Emil Wallner 對這篇論文的內容做了簡單的解讀

核心觀點:我們不應該測量某個具體能力,然後把它作為 AI 系統的適應能力和靈活性的測量手段。只要有無限多的數據,模型就可以記憶如何做決策。如果想要發展通用人工智能(AGI)的話,我們需要想辦法量化、測量「學習新能力的效率」。

1970 年代的時候,許多人都認為棋類遊戲可以代表人類理性思維的至高水準,如果人類能用計算機解決棋類問題,就表明人類在認知、理解方面又達到了一個新的里程碑。但 IBM 的「深藍」出現並擊敗卡斯帕洛夫之後,大家發現整個研發過程並沒能幫助我們更好地理解人類思維。

深藍當然是談不上「智慧」的,但我們會認為人類的棋類高手有很高的智慧。這其實是因為我們把下棋的水平和一類「元技能」聯繫到了一起:我們認為棋下得好表示這個人有很強的邏輯思維能力,他除了下棋之外,在數學和推理方面也會很厲害。所以我們擬人化地理解 AI 的時候也會不由自主地走同樣的路線,認為能很好地掌握某種技能,也就掌握了其它一些相關的技能和思維,也就成了通用人工智能。

François Chollet 在論文中指出,DeepMind 的 AlphaZero 這種棋類遊戲智能體其實就既不靈活也不通用,他把它比做一個哈希表查找器,只不過在做一些局部敏感度的哈希函數計算而已。只要有了無限多的模擬計算結果,就完全可以直接在棋盤上的落子情況和理想的動作之間找到對應關係。

測量「智慧」的正確姿勢可能是?

Chollet 認為,現階段 AI 研究的「以任務表現為中心」的研究思路其實才是我們走向通用人工智能的瓶頸。他認為我們其實應該走另一條路線,Hernandez-Orallo 路線:「

AI 是這樣一門科學和工程學,它造出的機器能完成從來沒有見過、從來沒有提前準備過的任務」。

在論文的 II.2 節,Chollet 正式提出了他的核心想法:要了解一個系統的智慧水平,應當測量它在一系列不同任務中表現出的獲得新能力的效率;這和先驗、經驗、泛化難度都相關。

為了避免只有局部泛化能力的系統在某些特定任務中可以用訓練「換來」好的表現,Chollet 把先驗的條件限制為「發展科學理論」(developmental science theory)中允許的「核心知識」,比如基礎物理學、算數、幾何學知識,以及對意圖的基本理解。

根據他勾畫出的理想做法,Chollet 創建了一個 ARC 數據集,「Abstraction and Reasoning Corpus」,意為「抽象和推理語料庫」 。這個數據集的設計方法借鑑了人類的 IQ 測試中的抽象和推理部分 (反映流體智力 fluid intelligence),內容比如

測量「智慧」的正確姿勢可能是?

ARC 數據集中包含 400 個訓練任務以及 600 個評價任務。這個數據集的核心特點包括:

  • 評價任務集中的任務都是全新的(和訓練任務沒有重疊)

  • 高度抽象

  • 和人類的 IQ 測試類似

  • 每個任務有三個示例

  • 固定的&有限的訓練數據

  • 對進行測試的 AI 系統的先驗有一組明確的指定

《The Measure of Intelligence》這篇論文是對近幾年流行的「大數據、高計算量解決一切問題」的做法的旗幟鮮明的反對,而且 Chollet 也在論文中介紹了許多歷史背景,這讓這篇論文對不熟悉相關話題的讀者來說也不那麼難懂。

François Chollet 自己在發佈論文的同時,也在推特上從介紹了一些背景和自己的想法:

我剛剛公開的這篇稍微有點長的論文是關於「智慧」的定義和測量的,論文裡還介紹了一個新的 AI 評價數據集 ARC(抽象和推理語料庫)。在過去的兩年裡我自己一直在斷斷續續地研究它。

這篇論文的內容包括:

  1. 直到目前我們如何定義 AI、如何評價 AI 的歷史和討論

  2. 提出一種「智慧」新的定義,以及提出針對理想的通用 AI 的評價方式的大綱

  3. 介紹了 ARC 數據集的目標以及它的邏輯

在過去的十年中我經常在演講裡、聊天裡或者推特上談到有關「智慧」的話題,這篇論文就是我嘗試給它做出一個正式的定義的結果,讓它有幫助、可實施。ARC 數據集本身也讓我開啟了一個很有趣的研究方向,我希望你們也會覺得它有用。

我需要強調一下,我在這篇論文裡給出了智慧的定義,但並不意味著它就是智慧的真正的、唯一的定義;這也不是這些討論的重點所在。智慧是一件很複雜的事情,在不同的語境下可以有不同的體現。對智慧,以及對於 AI,可能有很多種定義方式都是可行的。

最近我在算法開發方面也有一些進展,有一個算法已經起碼能夠解決 ARC 數據的一小部分;它是基於認知理論的(自動抽象),我在這個課題上已經花了很多時間精力了。我希望在不久的將來就可以和大家分享這些想法和代碼。

我從 2009 年開始就有了這個理論的大概想法,它從 ONEIROS 項目 (Open-ended Neuro-Electronic Intelligent Robot Operating System) 中借鑑了很多重要的元素,ONEIROS 是一個我在 2009 年到 2012 年之間參與開發過的一個通用 AI 架構(後來我在 2014 年也做過一段時間,然後就基本廢棄了)。它的基礎是一個經典的強化學習的思維模式,主要關注的是,1,學習時空特徵的模塊化、層級化的映射關係(通過 PMI 矩陣分解,而不是梯度下降);2,通過一種注意力機制實現上下文轉換;3,固有動機(也就是好奇心)

測量「智慧」的正確姿勢可能是?

它的宣傳語是「認識是一種動態的、模塊層次化的感知&運動信息空間的映射」。我把這個稱作「映射理論」 —— 應該有那麼兩三個人能記得我在 2010 到 2012 年之間提到過這個。我覺得 ONEIROS 在好幾個方面都做對了(尤其考慮到在那個時候就已經有這樣的思維高度),但可惜的是它最終還是沒能解決真正核心的問題:「抽象」的本質。這就是我現在在嘗試解決的,也是我設計 ARC 所針對的問題。

稍後他還做出了一些額外的(批評)和補充:

大概可以這麼說,我們(研究人員以及普通大眾)對 AI 技術的認知裡的所有錯誤的部分,都可以把原因歸結為過度的擬人化。但 AI 很狡猾,人類設計 AI 、訓練 AI 想讓它模仿哪一兩個人類技能,它就會完完全全地只模仿這一兩個技能,而完全學不到其它的(即便看起來很相關)的技能。在這個過程裡,AI 還會嘗試走所有有可能的捷徑、發掘各種能帶來提升的小竅門甚至環境中的 bug,而不會主動遵循人類本來規劃的「正道」,最終得到的系統也就和人類的思維沒有任何共通之處。

可以把 AI 比做一部認知動畫——表面上看起來它能動,但其實只不過是在紙上畫出的一系列近似的、模仿人類情感和動作的圖形而已。Sophia 這樣的機器人都可以算是當代 AI 的典範。

AI 相比於認知抽象能力,就像動畫人物相比於人類情感一樣。最關鍵的是,即便當前的 AI 系統中體現出了不少數據抽象後的編碼、可操作化特徵,但這基本上也和真正的智慧中的「自動抽象」沒什麼關係;就像創造新的動畫角色和創造新的生命形式沒什麼關係一樣。

真正的 AI 研究,我們連門都還沒摸到呢。

在論文公開後的幾天內,許多研究人員都閱讀論文並給出好評,以及自己嘗試 ARC 中的任務並玩得不亦樂乎。許多人都表示贊同 François Chollet 對智慧的觀點,而且極為推薦這篇論文。雷鋒網 AI 科技評論也建議感興趣的讀者仔細閱讀論文原文,近距離感受這趟思維之旅。

論文地址:arxiv.org/abs/1911.01547

示例程序和數據集開源:github.com/fchollet/ARC

雷鋒網 AI 科技評論編譯整理


分享到:


相關文章: