认识Meena, Google AI的最新聊天机器人技术

Photo by Jared Arango on Unsplash


几年前,当我看着Sundar Pichai推出Google Duplex时,感到不寒而栗。 那个预订电话的人,真是可怕的美丽。 嗯,真是神奇。

今天,我刚刚读到了Google AI的新聊天机器人Meena。 它被描述为

多轮开放域聊天机器人,对从公共领域社交媒体对话中提取和过滤的数据进行了端到端的训练

让我们分解一下

多回合表示参与者之间来回对话。 请记住,Lisa(Google Duplex)试图与真实的人预约理发的对话。 该对话可归为多回合,因为该聊天机器人不会失去上下文,并且会保持有意义并能够完成任务。

开放域意味着您可以与聊天机器人讨论的主题没有任何限制。 这个想法是使聊天机器人更像人类。 像人类一样说话。 有了足够大的数据集,聊天机器人应该可以做到。 即使没有上下文,人们也可以找到一种明智地进行对话的方法。 这就是聊天机器人的开放域。

一个可怕的笑话

这或多或少将是文明的终结,不是吗? 大家都听过这个笑话吧? 没有? 在这里-世界上最杰出的科学家创造了第一台AGI计算机(或计算机网络)。 他们问AGI的第一个问题是-有上帝吗? 情报回应-现在,就在这里!

挖掘和过滤-对数据进行语言处理和过滤。挖掘和过滤的目的是,首先从文本(有意义的单词或权重更大的单词或定义上下文的单词)中提取有意义的数据,其次,从句子中过滤掉所有杂音和所有不必要的垃圾。数据挖掘(和过滤)本身就是一个非常广泛的研究领域,其中涉及语言学,语言理论,形式语法等。

Google AI的博客文章说到:

训练的目标是最大程度地减少困惑,即预测下一个标记(在这种情况下,是会话中的下一个单词)的不确定性。 它的核心是Evolved Transformer seq2seq体系结构,这是一种通过进化神经体系结构搜索发现以改善困惑性的Transformer体系结构。

对于统计学家,机器学习工程师和数据科学家来说,这些话可能很容易理解。 但不是所有人。 宽松地评估语言模型意味着检查模型的准确性。 有很多方法可以评估语言模型。

评估告诉我们语言模型的优点

广义上讲,有两种类型的语言评估模型

· 外在评估模型-发生的情况是,您将两个竞争的语言模型通过相同的测试/任务(例如机器翻译,语音识别,语法校正等)进行测试。 然后,您评估哪一个性能更好。 缺点是评估这些模型需要大量时间和资源。 因此,替代方案如下。

· 内部评估模型-内部评估模型的作用是基于语言模型的外部评估,即使用模型完成某些任务,将模型应用于特定用例或应用程序。 内在模型针对语言模型的本质。 固有模型中用作度量标准的一件事是困惑。 一个例子是香农游戏(Shannon Game),它只是问一个问题:语言问题如何预测给定句子中的下一个单词? 还有其他方法可以评估固有属性模型。

因此,困惑perplexity只是一个统计模型,它将使用内在属性来评估语言模型。

简单来说,整个想法是猜测给定不完整句子中的下一个单词,并查看模型对其预测的效果如何。 那就是困惑perplexity背后的想法。 困惑度越低,模型越好。

其他用于Google Meena评估的内容

在Google AI的博客上阅读这篇深入的文章,他们声称Meena的敏感度和特异度平均值(SSA)仅比人类低7%。

您还记得乔姆斯基的著名句子吗?

Colourless green ideas sleep furiously 无色的绿色疯狂地想睡觉

他试图显示一种语言的漏洞,以及一种语言如何具有语法和语义。 语法是语法。 语义就是意义。 语法并不难。 语义是。 使用乔姆斯基的方法,一台机器可以在语法上讲出正确无误的句子。 它今天可以做到。 它做得不好的是-有道理。 这就是整个努力的全部内容。

SSA针对语义-聊天机器人的响应有多有意义? 以及对正在发生的对话的具体程度。 因此,明智(或有意义)和专一(对话的背景)在纸上构成了衡量语言模型的良好性的良好指标。

本质上,敏感度和特异性平均值(SSA)是Google创建的指标,用于衡量对话型聊天机器人以明智和特定的方式响应对话的能力。 就像人类一样。 为了测试Meena,它与市场上其他流行的开源聊天机器人进行了对话。 Google AI的博客说,

为了计算SSA,我们与正在测试的聊天机器人(Meena和其他知名的开放域聊天机器人,尤其是Mitsuku,Cleverbot,XiaoIce和DialoGPT)进行众包自由形式的对话。

A conversation with Google Meena.

谷歌声称Meena优于当今市场上最好的生成模型,该模型由Elon Musk和Sam Altman创建,并支持OpenAI。 这是其中的一些结果-

OpenAI's GPT-2 performance metrics on several datasets. Taken from OpenAI's website. Read this for d

关于SSA指标的更多信息尚待了解。 但是,当他们说自己做得更好时,也许可以信任Google。 他们以前已经交付了惊人的东西。

Google在博客文章结尾说:

尽管我们只专注于这项工作的明智性和特殊性,但在后续工作中还应考虑其他属性,例如个性和事实性。此外,解决模型中的安全性和偏差是我们关注的重点领域,鉴于与此相关的挑战,我们目前尚未发布外部研究演示。但是,我们正在评估与外部化模型检查点相关的风险和收益,并且可能选择在未来几个月中使用它,以帮助推进该领域的研究。

我希望他们强调事实,应对安全和偏见。 这是最重要的。

这对我们的未来意味着什么?

当这项技术成为我们日常工作的一部分时,我们甚至都不会注意到。 这绝对是Google Researchers的一项伟大成就。 而且,他们考虑在这些模型中解决安全性,事实性和偏见性甚至更好。 这也是OpenAI的基础。 尽管他们的想法是,一个人(Google)手中掌握着太多的权力,所以如果AGI在不久的将来成为现实,那么我们能够通过将最好的 最好的AI代码。

很明显,我会把这个留给您-

(本文翻译自Kovid Rathee的文章《Meet Google Meena》,参考:https://towardsdatascience.com/meet-google-meena-11c26849e12a)