谷歌發佈“世界上最好”的聊天機器人,容量是GPT-2的1.7倍

近日,在一篇名為《Towards a Human-like Open-Domain Chatbot》的論文中,谷歌的研究人員介紹了一個名為“Meena”的模型,

它是一個包含了 26 億參數的端到端訓練型神經對話模型。

谷歌發佈“世界上最好”的聊天機器人,容量是GPT-2的1.7倍

在論文中,研究人員表示:與現有的最新聊天機器人相比,Meena 可以進行更聰明、更具體的對話。


他們針對開放域聊天機器人提出了一項新的人類評估指標——敏感度和特異性平均值(SSA),該指標捕獲了人類對話的基本但重要的屬性。


值得注意的是,研究人員證明了“困惑度”是一種易用於任何神經對話模型的自動指標,與 SSA 高度相關。


最新聊天機器人“Meena”


Meena 是一種端到端的神經對話模型,可以學會對給定的對話環境做出更加聰明的反應。


谷歌發佈“世界上最好”的聊天機器人,容量是GPT-2的1.7倍

Meena(左)與人類的對話


據介紹,Meena 模型具有 26 億個參數,並經過400億字的模型——341 GB 的文本訓練,這些文本是從公共領域的社交媒體對話中過濾出來的。


與現有的最新生成模型 OpenAI GPT-2 相比,Meena 具有 1.7 倍的模型容量,並且受過 8.5 倍的數據訓練。因此Meena不僅可以保證連貫的對話體驗,甚至還能自己講出笑話。


該模型訓練的目標是最大程度地減少“困惑度”,即預測下一個標記(會話中的下一個單詞)的不確定性。


它的核心是 Evolved Transformer seq2seq 體系結構,這是一種通過進化神經體系結構搜索發現以改善困惑性的 Transformer 體系結構。


谷歌發佈“世界上最好”的聊天機器人,容量是GPT-2的1.7倍

同時Meena還具有一個編碼器模塊和13個譯碼器模塊,編碼器負責處理對話的上下文,幫助Meena理解對話的內容,而譯碼器則使用編碼器處理過的信息,產生實際的回應,Google提到,經過他們調校超參數後發現,強大的譯碼器是提高對話質量的關鍵。


敏感性和特異性平均值(SSA)


首先,要聲稱Meena勝過其他聊天機器人,需要一些評估標準。 Google引入了一個新的指標來幫助解決這一問題,稱為“敏感性和特異性平均值”或SSA。


此分數帶來的創新之處在於,它既可以衡量機器人的答案是否合理,也可以衡量人對合理答案的合理評價,也可以確定答案是否具體。


通常,漫遊器會使用“技巧”來使你認為他們正在跟你對話,而在實踐中,它們只是給出不一定特定於上下文的通用響應。例如,可能會進行如下對話:


人類:我真的很喜歡間諜電影!


機器人:神奇!請告訴我更多內容!


這是一個明智的回應,但並不具體,同樣的答案適用於任何人的任何數量的陳述,更具體的答覆是:


人類:我真的很喜歡間諜電影!


機器人:神奇!我喜歡所有的諜中諜電影,你最喜歡哪一個?



為了計算 SSA,研究人員與參與測試的聊天機器人(Meena 和其他知名的開放域聊天機器人共同參與測試,包括 Mitsuku,Cleverbot,小冰和 DialoGPT)進行了自由形式的對話眾包,得分如下:


Meena的SSA得分為79%,Mitsuku和Cleverbot為56%,DialoGPT為48%,XiaoIce為31%。鑑於該指標也可用於評估人類對話,因此Google測算的人類SSA平均值為86%,Meena非常接近這一標準。


谷歌發佈“世界上最好”的聊天機器人,容量是GPT-2的1.7倍


總結


總而言之,Meena可以在幾回合的交談中聊天,但是無法教給你靠譜的東西。Meena並不是嘗試幫你完成一項任務或學習新東西,它沒有明確的目標或目的。


雖然我們可能會花時間去談論一些無關緊要的事情,但在與一個以機器人進行數字服務交互時,我們傾向於尋找一些特定的東西。


例如,預定機票或解決客戶支持問題、想要得到一個特定領域的準確信息,或者在面臨的挑戰時尋求情感或心理支持。


談話類產品是有目的的,即使他們在開放式問題上失敗了,它們也會嘗試和你一起完成一項任務。


Meena在談話過程中把人性化放在了首位,然而,對於不同類型的任務,什麼是合適的會話方法,我們還有很多需要學習的地方。


有研究表明,在某些情況下(尤其是涉及敏感個人信息的情況下),更適合做出“機器人”般的反應,而像人類一樣的世界並不是機器人的終極目標。


Meena從社交媒體互動中學到了什麼?如果將其插入對話中,如何保證不會說出不恰當的話?對於Meena來說,數百萬個公共領域的社交媒體對話是適合的數據集嗎?


谷歌在博客中確認,聊天機器人尚未進入應用階段,目前谷歌更多專注在如何讓Meena變得感性這一問題之上,未來會考慮其他屬性,如個性和事實性。


同時還要解決模型中的存在的安全性和偏差性,鑑於目前仍面臨多個方面的挑戰,因此Meena目前並未對外公開演示。


參考鏈接:


https://venturebeat.com/2020/02/01/just-how-big-a-deal-is-googles-new-meena-chatbot-model/


https://ai.googleblog.com/2020/01/towards-conversational-agent-that-can.html


https://arxiv.org/abs/2001.09977


分享到:


相關文章: