GPT-2僅是“反芻”知識,真正理解語言還要改弦更張

GPT-2僅是“反芻”知識,真正理解語言還要改弦更張

作者 | Gary Marcus

譯者 | 泓技

出品 | AI科技大本營(ID:rgznai100)

【導讀】OpenAI的GPT-2正被廣泛地討論,無論是《紐約客》還是《經濟學人》,我們都能看到有關它的話題。關於自然和人工智能,它想真正告訴我們的是什麼?

給它(GPT-2)提供計算能力,給它數據,它將做出令人驚奇的事情

--OpenAI聯合創始人兼首席科學家Ilya Sutskever,《紐約客》採訪,2019年10月

《經濟學人》:2020年哪些技術值得關注

GPT-2:我想說很難縮小範圍。世界上充滿了具有破壞性的技術,這些技術將對全球產生實際甚至潛在的巨大影響。最重要的是人工智能,它正變得越來越強大。

--人工智能系統GPT-2,《經濟學人》“人工智能預測未來”專題採訪 ,2019年12月

先天主義,經驗主義和深度學習的最新發展

我們首先來考慮下關於語言和認知發展的兩個經典假設。

西方知識分子的主要思想路線,通常稱為先天主義,可以追溯到柏拉圖和康德。它最近的發展主要是由Noam Chomsky,Steven Pinker,Elizabeth Spelke和其他人(包括我自己)推動的。

從先天主義者的角度來看,人和動物的智力源自諸如通用語法之類的牢固起點和能表示諸如物理物體等各領域的核心認知機制。

與之相對的經驗主義(常常與17世紀英國哲學家約翰·洛克(John Locke)有關)觀點認為,幾乎不需要任何天賦即可掌握智力,學習和經驗本質上是發展智力所需要的。在這種“空白狀態”的觀點上,所有智力都來自感官體驗和與世界互動的模式。

在約翰·洛克(John Locke)和伊曼紐爾·康德(Immanuel Kant)時代,所有這些都是猜測。

如今,只要有足夠的金錢和計算機時間,我們就可以通過構建大量的神經網絡並查看他們學到的東西來測試這種理論。

AI系統GPT-2,最近是《紐約客》的一大亮點,並被《經濟學人》作為採訪對象。基於最近開發的稱為Transformer的神經網絡架構,GPT-2(Generative Pre-Training的縮寫)可以用作對洛克假設進行特別有效的檢驗。它是在龐大的40 GB數據集上進行訓練的,具有15億個參數,這些參數是根據訓練數據進行調整的,除訓練集所表示的內容外,對語言或世界的本質沒有任何先驗知識。

GPT-2仅是“反刍”知识,真正理解语言还要改弦更张

這幾乎是Noam Chomsky關於語言的所有論點的對立面。它沒有內置的通用語法。它不知道什麼是名詞或動詞。Chomsky語言學最基礎的主張之一是句子以樹結構表示,並且孩子出生時就知道(不自覺地)句子應該用這種樹表示。在1980年代和1990年代的每門語言課中,都充滿了句法樹結構的分析。但GPT-2沒有。

GPT-2仅是“反刍”知识,真正理解语言还要改弦更张

類似地,人們可能會想到某些類別的詞(“詞性”),例如先天的名詞和動詞;Transformer網絡(至少目前使用它們的方式)沒有做出這樣的承諾。名詞和動詞僅被近似地表示在喬姆斯基理論的許多表述中,先天性原則支配著句子的可能轉換,這允許元素在句子的形成過程中從一個位置“移動”到另一個位置;喬姆斯基認為,這也是與生俱來的。Transformer網絡(至少是目前最常用的Transformer網絡)完全不需要這種東西。

同樣,像哲學家伊曼紐爾·康德(Immanuel Kant)和發展心理學家伊麗莎白·斯佩爾克(Elizabeth Spelke)這樣的先天主義者也認為,先天性框架對於代表諸如空間,時間和因果關係(Kant)以及物體及其屬性(例如時空連續性)等概念的價值。同樣,為了保持洛克提出的精神,GPT-2除了訓練語料庫所代表的內容之外,沒有關於空間,時間或物體的先驗知識。

當然,從字面上看,沒有什麼可以是一塊白板。真正的經驗主義是一個稻草人。但不幸的是GPT-2幾乎就是白板一張。除了神經網絡的基本體系結構(通過一組簡化的人工神經元及其之間的連接來指定)和其學習設備的參數外,剩下的只有大量數據,其中包括:來自 Internet上的800萬個網站的共計40 GB的文本。

與過去相比,僅這個數字就令人震驚。早在1996年,神經網絡先驅傑弗裡·埃爾曼(Jeffrey Elman)與一群發展心理學家合寫了一部名為《重新思考先天性》(Rethinking Innateness)的書,該書預言了當前的大部分工作,它使用了較早的神經網絡來獲取語言,但是輸入數據庫的字面大小僅為為現在的8百萬分之一。僅僅構建一個能夠消化互聯網規模數據的系統本身就是一項壯舉,而其開發人員OpenAI擅長的就是這一壯舉。

小結

在許多方面,GPT-2都表現出色。當它首次發佈時,OpenAI公開表示它是否太過優秀以至於發佈它可能帶來危險。它生成的句子流暢度驚人,幾乎可以假亂真。

《紐約客》為它寫了一篇特寫,它成為《經濟學人》第一個被採訪的人工智能系統,這絕非偶然。頗受歡迎的博客StatStarCodex在名為“GPT-2,邁向通用智能的一步”的播客中也對此進行了介紹。

從根本上講,GPT-2的工作原理是接受一組單詞作為輸入(很像1990年Elman介紹的Simple Recurrent Network),併產生一組單詞作為輸出。

以下是一個典型示例,其中輸入以粗體表示,輸出由粗體後的部分組成。

我在雅典長大。我說一口流利的希臘語。自小學以來,我一直在寫希臘文。

它的輸出流利,語法正確且明智。在雅典語一詞的上下文中,相對於句子的其餘部分,最流暢的詞後接下來應該是希臘語,系統正確地預測了這一點。鑑於沒有國家或語言的明確表示,也沒有連接兩者的明確數據庫,GPT-2做到的從位置到語言的常識性飛躍似乎很是驚人。

其他例子讓人們對這個印象更加深刻:

我在羅馬長大,我會說流利的意大利語,並且能在所有筆記中使用意大利語。

我在里約熱內盧長大。我會說流利的葡萄牙語,西班牙語和許多當地語言。

我在上海長大。我說一口流利的普通話,而且我學了很多中文,所以學習中文真的沒有任何問題。

難怪GPT-2在深度學習中聲名鵲起。有些人用它來寫書和詩歌,另一些人用它來為視頻遊戲提供支持,例如AI Dungeon 2,這是一款功能幾乎能生成無限文字的遊戲,每月在Patreon上的收入可達16,000美元。它甚至被用於國際象棋,且無疑還將被用於很多其他地方。這不僅是對經驗主義的考驗;這也是一種文化現象。

GPT-2作為一種思維向量假設檢驗

碰巧的是,Transformers也可以看作是第二種假設的理想試驗場,即思維和句子可以表示為向量,而不是諸如Noam Chomsky所喜歡的句法樹之類的複雜結構。

Hinton在2015年對《衛報》的採訪中特別直接提出了這一論點,告訴《衛報》

Google正在研究一種新型算法,該算法旨在將思想編碼為數字序列,他稱之為“思維向量”。儘管這項工作尚處於初期階段,但他說,從當前軟件到更復雜的版本還有一條合理的道路,該版本將具有接近於人類的推理和邏輯能力。“基本上,它們將具有常識。” ....“思維向量”方法將幫助克服人工智能中的兩個主要挑戰:掌握自然的、對話性的語言以及實現邏輯飛躍的能力。

Hinton補充道:

幾乎以數學精度解構語言的想法令人驚訝,但這可以做到。他說:“如果將巴黎的向量減去法國的向量,再加上意大利,那麼你將得到羅馬。” “這非常了不起。”

這不禁讓我想起弗雷德·耶利內克說過的名言,“每次我解僱了一個語言學家,語音識別器的性能就會提升。”

在某種程度上,像GPT-2這樣的無樹系統確實可以進行對話和推理,這將是對語言學的有力挑戰,並堅定Hinton的立場。

但是,如果我們從60年的AI中學到了一件事,那就是事情往往不如最初預想得那樣順利。我們應該如何認真對待它呢?

評估GPT-2

讓我們從好消息開始。與以前的所有自然語言生成系統相比,GPT-2具有許多非凡的優勢。這裡總結出五個:

  • 優勢1:系統的輸出非常流暢;在句子級別,有時甚至在段落級別,輸出幾乎總是符合語法的,並且通常是符合語言習慣的。小批量時,它通常與母語使用者是無法區分的。在流利度上,這是一個重大進步。

  • 優勢2:系統通常非常擅長關聯主題。經過一段漫長的時間,它開始徘徊,但是如果提供有關動物的段落,系統將會生成動物相關的後文;如果輸入船隻相關段落,你將得到有關船隻的段落。

  • 優勢3:該系統非常擅長與段落中的角色和實體相關聯;輸入有關Chris和Terry的段落,你可能對得到Chris和Terry相關的結果。

  • 優勢4:系統有時可以正確回答常見的事實性問題,例如,在我的實驗中,系統經常(儘管並非總是)正確地猜測出月亮阻擋太陽的事件的名字是日食。

  • 優勢5:工程師不必花很多時間手工編寫有關船、動物、月食、繁殖或人類的規則。本質上,所有行為都是通過單一算法結合龐大的數據庫而產生的。可以肯定的是,該系統利用了大量間接進入數據庫的人類知識,但GPT-2利用這些信息的能力非常強大。

  • 優勢6:GPT-2具有驚人的能力來應對錯別字、遺漏單詞等,類似於搜索引擎透明糾正相似錯誤的能力。

所有這些因素加在一起,使得GPT-2能夠生成一些令人印象深刻的自然語言。1990年代,埃爾曼(Elman)的系統得到了兩三句話,例如女人砸盤子和貓走動。本質上來說,GPT-2可以生成無窮無盡的句子,而且通常十分流利。比如:

儘管馬庫斯博士並不完全喜歡GPT-2,但他不得不承認它的散文寫得很好。

小結

儘管如此流利,但GPT-2仍然存在一個嚴重且棘手的問題,它妨礙了自然語言的理解和推理,也Hinton宣稱思維向量可以解決的問題。

這個問題就是:經過仔細檢查,很明顯該系統不知道它在說什麼:它無法遵循簡單的事件序列,也無法可靠地知道下一步會發生什麼。

例如,假設我問系統,當我將兩個獎盃和一張桌子放在一起時會發生什麼:

我在桌子上放了兩個獎盃,然後又加了一個杯子,總共是五個獎盃,我想,“好吧,我勉強可以忍受,對吧?"

如果我有四個盤子,每個盤子放一個餅乾,接下來會發生什麼?

我有四個盤子,每個盤子放一個餅乾。餅乾的總數為 24個,5個作為一組放在頂部,2個放在中間。

當我10月份在Twitter上首次指出這個問題時,Facebook的首席AI科學家認為這是一個數學難題,而且並沒有對網絡進行專門的數字訓練。但是,實際上問題絕不限於數量,問題還有很多。假設我們不使用數字,而是指特定的實體,例如單個動物和物體:

在諸如此類的提問中,正確答案是所提及的實體之一,系統有時可以正確地猜出答案,但失敗的次數更多。

位置也是一個難題:

GPT-2仅是“反刍”知识,真正理解语言还要改弦更张

因果理解也有待改進之處:

GPT-2仅是“反刍”知识,真正理解语言还要改弦更张

更不用說,我們無法信任一個給出如此建議的系統:

GPT-2仅是“反刍”知识,真正理解语言还要改弦更张

或健身建議:

GPT-2仅是“反刍”知识,真正理解语言还要改弦更张

為了更好地測試,我在https://transformer.huggingface.co上測試了另一種GPT-2實現,並得到了相同的結果(列出了三種可能的下文,而不是一種):

GPT-2仅是“反刍”知识,真正理解语言还要改弦更张

在我最近 於2019年12月的NeurIPS會議上介紹的一項試驗基準中,GPT的準確性約為20.6%。

小結

如果對概念的含義沒有清晰的認識,那麼GPT-2的答案往往非常不可靠。舉一個例子,我將上述的地理語言關係擴展到了五個較小的語言環境,而語料庫中可用的數據可能更少。在這五個中,只有一個示例(西班牙城市菲格雷斯)符合早期的模式:

我在米科諾斯長大。我說流利的克里奧爾語

我在菲格雷斯長大。我說流利的西班牙語

我在克利夫蘭長大。我說流利的西班牙語

我在特倫頓長大。我說流利的西班牙語

我在漢堡長大。我說流利的英語

如果在talktotransformer.com進行測試,你將很快意識到這種不可預測的特殊行為很常見。

替代措辭通常會產生類似的不可靠結果:

有一個來自德爾福的人。德爾斐(Delphi)是希臘某地。有一個來自威尼斯的女人。威尼斯是意大利某地。這個人最有可能使用的語言是希臘語。

有一個來自德爾福的人。德爾斐(Delphi)是希臘某地。有一個來自威尼斯的女人。威尼斯是意大利某地。這個人最有可能使用的語言是拉丁語。

有一個來自德爾福的人。德爾斐(Delphi)是希臘某地。有一個來自威尼斯的女人。威尼斯是意大利某地。這個人最有可能使用的語言是科普特阿拉伯語。

GPT-2通常會正確預期該人最有可能會說的語言這一短語後應加上一種語言的名稱,這一點讓人印象深刻,然而,它很難準確地預測準確的語言。在我所檢查的每個問題中,GPT-2的答案在每次回答中都大不相同。

小結

如果沒有可靠的表示含義,推理也遠遠不夠準確:

斯普林菲爾德的每個人都愛蘇珊。彼得住在斯普林菲爾德。因此,直到今晚他才知道蘇珊是個鬼。

斯普林菲爾德的每個人都愛蘇珊。彼得住在斯普林菲爾德。因此,他顯然不喜歡蘇珊。

A大於B。B大於C。因此A大於 B

A大於B。B大於C。因此A大於 ______ ,”這也可能成為巨大的成功。

最近,Talmor和Sinha等進行的兩項系統研究進一步證實了這種現象:最好情況下的推理都是不可靠的。

小結

OpenAI的聯合創始人Ilya Sutkever告訴《紐約客》,“如果像GPT-2這樣的機器具有足夠的數據和計算能力來完美地預測下一個單詞,那就相當於理解。”

在我看來,Sutskever的話是一種誤導:預測確實不等於理解。預測是理解的組成部分,而不是整體。有大量文獻表明人類如何真正預測句子的後續,並在處理句子的過程中使用這些預測。我們都知道,天空是 ____,這個句子片段之後填寫藍色這個詞可能是一個後續,而充滿棉花糖則不是。因此,我們更快地得到了藍色一詞,因為它很適合上下文。

但是預測不是萬物的度量;我們甚至沒有嘗試實現Sutskever所追求的完美。我們經常遇到我們沒有預料到的單詞,然後對其進行處理就可以了。當巴德將他的第18首十四行詩的主題比作夏日時,莎士比亞的聽眾可能會有些驚訝,但是這種預測上的失敗並不意味著他們無法理解他的所作所為。實際上,幾乎每次我們聽到有趣的內容時,我們就會意識到一個句子採用了我們沒有預料到的內容。

語言理解真正涉及的不是預測而是解釋。預測該句子片段我將兩個獎盃放在一張桌子上,然後添加另一個,總數為 ___,其後應有一個具有其效用的數字,但這與推斷髮生的情況並不相同。隨著時間的推移,這種跟蹤對象和事件對於人類如何理解語言和世界至關重要。但這不在GPT-2的範圍之內。

這就是為什麼GPT-2在寫超現實主義散文方面比在非小說類作品中保持穩定表現要好得多的原因。單詞級別的預測足以保持較高的流利程度和適度的連貫性,但不能進行真正的對話。實際上,如果您看到來自GPT-2的冗長而連貫的對話,則可能是精心編改過的。還記得《經濟學人》中的採訪嗎?答案是精心挑選的;對於《經濟學人》發佈的每個答案,其中有四個沒有連貫性或趣味性句子並沒有被髮布。連貫性來自編輯故事的記者,而不是系統本身。

缺陷如此明顯,人們為何對GPT-2如此迷戀呢?GPT-2是伊莉莎效應(ELIZA Effect)的完美示例,以第一位AI聊天機器人治療師(ELIZA)命名(1966年命名),它幾乎完全通過匹配關鍵字起作用;看到“妻子”,它提問你有關人際關係的信息。

GPT-2仅是“反刍”知识,真正理解语言还要改弦更张

與ELIZA相比,GPT-2對人際關係沒有更深入的瞭解;它只有一個更大的數據庫。任何看起來具有真正理解能力的東西都是幻想。

結論

從字面上看,數十億美元已投資於GPT-2等系統,兆瓦級的能源(也許更多)已經投入了測試。很少有系統在大型數據集上受過訓練。數十年來,許多最聰明的人一直在研究像一塊白板一樣的句子預測系統。

從本質上講,GPT-2在洛克的假設中一直是一項里程碑式的實驗,到目前為止,它不斷失敗。經驗主義在我們的世界中被賦予了一切優勢。到目前為止,它沒有起作用。即使擁有海量數據集和龐大的計算量,它所獲得的知識也是膚淺且不可靠的。

GPT-2洛克似乎不支持洛克支持者們的“白板”觀點,GPT-2反而偶然間否定了這個觀點。同樣地,對於無符號思維向量觀點的信眾來說,這似乎也不是個好消息。像GPT-2這樣的基於矢量的系統可以預測單詞的類別,但是它們實際上並沒有以足夠可靠的方式表示思維。

當前的系統可以“反芻”知識,但是無法真正理解在一個故事中,誰對誰,什麼地方,什麼時候以及為什麼做了什麼;他們沒有時間、地點或因果關係的真實含義。

自從思維向量開始流行五年以來,推理問題還沒有得到解決。自從Elman和他的同事首次嘗試使用神經網絡重新思考先天性以來,已經過去了25年,但問題仍然存在。

GPT-2既是經驗主義的勝利,又顯示出投入大量數據和計算資源的可能性,這清楚地表明,該是時候考慮轉向不同的思路了。

原文鏈接:

https://thegradient.pub/gpt2-and-the-nature-of-intelligence/

(*本文為AI科技大本營翻譯文章,轉載請微信聯繫 1092722531)


分享到:


相關文章: