AI做“軍師”？先贏過Reddit用戶再說吧科技頭條網

2020-04-16 14:51:53 雷鋒網

雷鋒網消息，日前，西雅圖的研究人員推出了一項被他們稱為“TuringAdvice”的新人工智能大挑戰，挑戰的核心是創建語言模型，為使用真實世界語言的人類提供有用的建議。

TuringAdvice挑戰賽是基於動態的RedditAdvice數據集而發起的。Reddit advice是為迎接挑戰而創建的，它是一個眾包的數據集，在過去兩週裡共享的建議在Reddit小組中獲得了最多的支持票。為了通過挑戰，機器提供的建議必須要與那些受歡迎的人類建議一樣有用，甚至更好。

作為TuringAdvice的一部分，研究人員還發布了一個靜態RedditAdvice 2019數據集，用於訓練提供建議的人工智能模型，其中包括Reddit子社區用戶分享的18.8萬個情景下的61.6萬條建議。

初步分析表明，像谷歌T5（去年秋天推出的一個擁有110億個參數的模型）這樣的高級模型，只有在9%的情況下，寫建議版主發現至少和人類建議一樣有用。研究人員還評估了Grover變壓器模型和TF-IDF的版本。這項研究沒有評估像Google的BERT這樣流行的雙向NLP模型，因為它們通常被認為在生成文本方面不如從左到右的模型。關於人際關係、法律事務和日常生活方面的建議，可以在網上找到人機對比演示。

最近發佈的一篇關於TuringAdvice的論文寫道：“今天最大的模型在REDDITADVICE上苦苦掙扎，所以我們很高興看到新模型得到發展。”

“我們認為，如今存在一個深層次的問題：人類在現實世界中如何使用語言，與我們的評估方法能夠衡量的，這二者之間存在差距。當今的主流範式是研究靜態數據集，並根據輸出結果與預先定義正確答案的相似性對機器進行評級。”

“然而，當我們在現實世界中使用語言進行交流時——比如提供建議，或向某人傳授一個概念——很少有一個通用的正確答案可以與之相比，這只是我們想要實現的一個鬆散的目標。我們引入了一個框架來縮小基準測試和實際語言使用之間的差距。”

作者們表示，TuringAdvice挑戰賽中的AI進展，可能會使人工智能更好地為人類提供建議或充當虛擬治療師。

為了確保結果與真實世界的語言使用保持一致，研究小組選擇了一種動態評估方法，他們在最近兩週內從Reddit的各個子社區收集了200個情況。他們選擇把建議作為一個測試場景，因為它是所有人都非常熟悉的東西，並且與閱讀理解等核心NLP任務重疊。

TuringAdvice挑戰是華盛頓大學和艾倫人工智能研究所（Allen Institute of AI）的工作，上週在arXiv上發表的一篇研究論文對此進行了詳細闡述。該論文題為根據機器的實際語言使用情況來評估機器》（evaluation Machines by their Real-World Language Use）。華盛頓大學副教授Ali Farhadi是艾倫研究所先前團隊的負責人，也是本文的合著者之一，他的人工智能初創企業Xnor最近被蘋果收購。

所有的模型性能評估都來自於通過亞馬遜的Mechanical Turk僱傭的人員。這篇論文曾對獲取人工智能模型培訓數據的方式表示不滿，但它認為，比起發佈自動化機器建議來回應需要幫助的人類，僱傭Mechanical Turk員工的做法更有道德；它也承認，獲得報酬來完成這項任務會引入外部動機。傾向於選擇機器建議而非人類建議的工人被解僱了。

首席研究員Rowan Zellers在採訪中透露，研究人員將有機會創建並調整他們的模型；第二輪排行榜結果預計將在未來幾個月內公佈。

研究人員表示，他們選擇了Reddit各子社區分享的流行建議，試圖創造一種內在的動力，就像人們在Reddit上響應求助時所體驗的那樣。

TuringAdvice挑戰賽的一個關注點是價格。評估200條關於Mechanical Turk的建議大概需要370美元。未來挑戰賽的參與者將被要求支付Mechanical Turk的費用，以便他們的模型被評估或出現在TuringAdvice排行榜上。

TuringAdvice是過去一年中為建立更健壯的自然語言模型而創造的最新挑戰。去年秋天，華盛頓大學的NLP實驗室曾與紐約大學、Facebook的AI研究院和三星研究院一道，推出了SuperGLUE挑戰賽和“排行榜”(leaderboard)這一個更復雜的評估性能的任務系列。

雷鋒網編譯，via VentureBeat：https://venturebeat.com/2020/04/14/researchers-challenge-ai-to-give-advice-as-well-as-humans-on-reddit-can/

雷鋒網雷鋒網雷鋒網

分享到:

閱讀更多 雷鋒網 的文章

關鍵字: 國創上頭條人工智能這篇