認識Meena, Google AI的最新聊天機器人技術

認識Meena, Google AI的最新聊天機器人技術

Photo by Jared Arango on Unsplash


幾年前,當我看著Sundar Pichai推出Google Duplex時,感到不寒而慄。 那個預訂電話的人,真是可怕的美麗。 嗯,真是神奇。

今天,我剛剛讀到了Google AI的新聊天機器人Meena。 它被描述為

多輪開放域聊天機器人,對從公共領域社交媒體對話中提取和過濾的數據進行了端到端的訓練

讓我們分解一下

多回合表示參與者之間來回對話。 請記住,Lisa(Google Duplex)試圖與真實的人預約理髮的對話。 該對話可歸為多回合,因為該聊天機器人不會失去上下文,並且會保持有意義並能夠完成任務。

開放域意味著您可以與聊天機器人討論的主題沒有任何限制。 這個想法是使聊天機器人更像人類。 像人類一樣說話。 有了足夠大的數據集,聊天機器人應該可以做到。 即使沒有上下文,人們也可以找到一種明智地進行對話的方法。 這就是聊天機器人的開放域。

一個可怕的笑話

這或多或少將是文明的終結,不是嗎? 大家都聽過這個笑話吧? 沒有? 在這裡-世界上最傑出的科學家創造了第一臺AGI計算機(或計算機網絡)。 他們問AGI的第一個問題是-有上帝嗎? 情報回應-現在,就在這裡!

挖掘和過濾-對數據進行語言處理和過濾。挖掘和過濾的目的是,首先從文本(有意義的單詞或權重更大的單詞或定義上下文的單詞)中提取有意義的數據,其次,從句子中過濾掉所有雜音和所有不必要的垃圾。數據挖掘(和過濾)本身就是一個非常廣泛的研究領域,其中涉及語言學,語言理論,形式語法等。

Google AI的博客文章說到:

訓練的目標是最大程度地減少困惑,即預測下一個標記(在這種情況下,是會話中的下一個單詞)的不確定性。 它的核心是Evolved Transformer seq2seq體系結構,這是一種通過進化神經體系結構搜索發現以改善困惑性的Transformer體系結構。

對於統計學家,機器學習工程師和數據科學家來說,這些話可能很容易理解。 但不是所有人。 寬鬆地評估語言模型意味著檢查模型的準確性。 有很多方法可以評估語言模型。

評估告訴我們語言模型的優點

廣義上講,有兩種類型的語言評估模型

· 外在評估模型-發生的情況是,您將兩個競爭的語言模型通過相同的測試/任務(例如機器翻譯,語音識別,語法校正等)進行測試。 然後,您評估哪一個性能更好。 缺點是評估這些模型需要大量時間和資源。 因此,替代方案如下。

· 內部評估模型-內部評估模型的作用是基於語言模型的外部評估,即使用模型完成某些任務,將模型應用於特定用例或應用程序。 內在模型針對語言模型的本質。 固有模型中用作度量標準的一件事是困惑。 一個例子是香農遊戲(Shannon Game),它只是問一個問題:語言問題如何預測給定句子中的下一個單詞? 還有其他方法可以評估固有屬性模型。

因此,困惑perplexity只是一個統計模型,它將使用內在屬性來評估語言模型。

簡單來說,整個想法是猜測給定不完整句子中的下一個單詞,並查看模型對其預測的效果如何。 那就是困惑

perplexity背後的想法。 困惑度越低,模型越好。

其他用於Google Meena評估的內容

在Google AI的博客上閱讀這篇深入的文章,他們聲稱Meena的敏感度和特異度平均值(SSA)僅比人類低7%。

您還記得喬姆斯基的著名句子嗎?

Colourless green ideas sleep furiously 無色的綠色瘋狂地想睡覺

他試圖顯示一種語言的漏洞,以及一種語言如何具有語法和語義。 語法是語法。 語義就是意義。 語法並不難。 語義是。 使用喬姆斯基的方法,一臺機器可以在語法上講出正確無誤的句子。 它今天可以做到。 它做得不好的是-有道理。 這就是整個努力的全部內容。

SSA針對語義-聊天機器人的響應有多有意義? 以及對正在發生的對話的具體程度。 因此,明智(或有意義)和專一(對話的背景)在紙上構成了衡量語言模型的良好性的良好指標。

本質上,敏感度和特異性平均值(SSA)是Google創建的指標,用於衡量對話型聊天機器人以明智和特定的方式響應對話的能力。 就像人類一樣。 為了測試Meena,它與市場上其他流行的開源聊天機器人進行了對話。 Google AI的博客說,

為了計算SSA,我們與正在測試的聊天機器人(Meena和其他知名的開放域聊天機器人,尤其是Mitsuku,Cleverbot,XiaoIce和DialoGPT)進行眾包自由形式的對話。

認識Meena, Google AI的最新聊天機器人技術

A conversation with Google Meena.

谷歌聲稱Meena優於當今市場上最好的生成模型,該模型由Elon Musk和Sam Altman創建,並支持OpenAI。 這是其中的一些結果-

認識Meena, Google AI的最新聊天機器人技術

OpenAI's GPT-2 performance metrics on several datasets. Taken from OpenAI's website. Read this for d

關於SSA指標的更多信息尚待了解。 但是,當他們說自己做得更好時,也許可以信任Google。 他們以前已經交付了驚人的東西。

Google在博客文章結尾說:

儘管我們只專注於這項工作的明智性和特殊性,但在後續工作中還應考慮其他屬性,例如個性和事實性。此外,解決模型中的安全性和偏差是我們關注的重點領域,鑑於與此相關的挑戰,我們目前尚未發佈外部研究演示。但是,我們正在評估與外部化模型檢查點相關的風險和收益,並且可能選擇在未來幾個月中使用它,以幫助推進該領域的研究。

我希望他們強調事實,應對安全和偏見。 這是最重要的。

這對我們的未來意味著什麼?

當這項技術成為我們日常工作的一部分時,我們甚至都不會注意到。 這絕對是Google Researchers的一項偉大成就。 而且,他們考慮在這些模型中解決安全性,事實性和偏見性甚至更好。 這也是OpenAI的基礎。 儘管他們的想法是,一個人(Google)手中掌握著太多的權力,所以如果AGI在不久的將來成為現實,那麼我們能夠通過將最好的 最好的AI代碼。

很明顯,我會把這個留給您-

(本文翻譯自Kovid Rathee的文章《Meet Google Meena》,參考:https://towardsdatascience.com/meet-google-meena-11c26849e12a)


分享到:


相關文章: