為什麼人工智能助手總會說一些蠢話？問答頭條網

2018-05-26 05:18:00.447000 佚名

碧崇輝

Siri和Alexa顯然遠非完美，但有望通過機器學習的穩步發展使它們在不久之後成為能說會道的助手。然而，一項新的測試可能表明，要AI系統實際上真正地掌握語言，可能需要一種本質上完全不同的方法。

艾倫人工智能研究所（AI2）是一家位於西雅圖的非營利組織。由AI2發起的AI2推理挑戰（ARC），將提出小學階段難度水平的多項選擇科學問題。每個問題都需要回答者對世界的基本運作方式有所瞭解。該項目在相關研究論文中有詳細描述。

問題示例如下：“以下哪一項不是由自然生長的材料製成的? (A)棉襯衫(B)木椅(C)塑料勺(D)草籃。”

對於任何知道塑料不是自然產物的人來說，這樣的問題都不容易出錯。答案屬於常識的範疇，就連小孩子都知道。

然而語音助手、聊天機器人和翻譯軟件背後的人工智能恰恰缺乏這種常識。這是它們經常表現的很困惑的原因之一。

依賴機器學習的語言系統常常能提供令人信服的答案，前提是它們以前見過很多類似的例子。例如，一個使用成千上萬個IT服務支持聊天記錄訓練出來的程序，也許能夠在有限的幾種情況下作為技術支持助手提供服務。但是，如果你向它提出的問題需要以更廣泛的知識為基礎，這樣的系統往往力不從心。

“我們需要用我們的常識來填補我們所看到的話語之間的空白，從而形成一個連貫的描述圖景，”ARC項目的首席研究員彼得·克拉克（Peter Clark）說。“機器沒有這種常識儲備，他們只能看到字面上明確的意思，因此會忽略了一段文字背後的諸多暗示和假設。”

這項新測試是AI2一項計劃的一部分，旨在讓AI系統瞭解世界。這很重要，因為要確定一個語言系統對於所輸出內容的理解是件很困難的事。

例如，今年1月，來自微軟和阿里巴巴的研究人員分別開發了一款問答程序，在一個名為“斯坦福問題回答數據集”的簡單測試中，表現超過了人類。成績宣佈之後，新聞標題開始大肆宣稱人工智能程序可以比人類做得更好。但是這些程序無法回答更復雜的問題，也無法利用其他來源的知識。

科技公司將繼續以這種方式宣傳人工智能系統的功能。微軟上週宣佈，它已經開發出能夠將英語新聞報道翻譯成漢語的軟件，另外也可以漢譯英，經過獨立志願者的評判，該譯文已經可以比肩專業翻譯的譯文。微軟的研究人員使用先進的深度學習技術使翻譯系統的精確度達到了全新高度。特定情況下這可能非常有用，但是如果要求在系統不熟悉的領域（如病例）翻譯沒有內容限制的對話或文本，系統將會陷入困境。

紐約大學教授加里·馬庫斯（Gary Marcus）一直以來都支持常識在人工智能領域的重要性，這次的AI2挑戰讓他備受鼓勵。他說:“我認為這是一種很好的方式，可以解決在機器學習領域普遍存在的基準測試太簡單的問題。這的確可以督促人工智能研究人員提升他們的程序。”

本文原刊《麻省理工科技評論》中英文APP 2018 年 3 月下