聊天机器人有多难做?94亿个参数、15亿个训练语句也撑不起来

在正文开始之前,我们先来看一个国产的“智能”聊天机器人:

​宋师傅给孙子买的机器人

虽然近年来聊天机器人和虚拟助手已经取得了一定的进步,但严格来说,它们还不够智能,大多数都是高度任务导向化、一问一答式的:你提出要求,它们就服从。当它不能回答时,就说“超出了我的理解范围。”

“xxx,帮我定个早上8点的闹钟”,“好的”。“拨打xxx的电话”、“播放xx音乐”、“导航去公司”......

目前来说,除此之外,我们并没有看到聊天机器人和虚拟助手其他更好的用法。机器人自主地与人类进行长时间的对话或就某一特定主题进行深入地探讨,目前市面上还没有这样的产品,要成为“人类的灵魂伴侣”,更是遥不可及。

哪怕是Facebook近日公布的集成了94亿个参数和15亿个训练语句的开放域聊天机器人Blender,也做不到。

4月29日,Facebook的AI和机器学习部门Facebook AI Research(FAIR)开源了一款新的聊天机器人Blender。

聊天机器人有多难做?94亿个参数、15亿个训练语句也撑不起来

FAIR称,Blender是GitHub上最大的开放域聊天机器人,它可以用一种有趣的方式谈论几乎任何事情,其性能优于此前号称世界上最好的聊天机器人——谷歌Meena。

FAIR表示,与以往的机器人相比,Blender是多年来将同理心、知识和个性结合成一个系统的研究成果。为此,基本模型——受益于改进的解码和技能混合技术——包含多达94亿个参数(定义给定问题的技能的配置变量),比谷歌Meena(26亿个)的系统多3.6倍。

不仅如此,为了在对话中生成响应打下基础,Blender还接受了Reddit上的15亿个公开的对话预训练。

为了评估Blender的聊天技能,FAIR的研究员将它与Google最新的Meena chatbot进行比较。志愿者需要从100条分别来自Blende和Meena的聊天日志中回答两个问题:“你更想和谁进行长时间的交谈?”“哪个聊天机器人听起来更加人性化?”

聊天机器人有多难做?94亿个参数、15亿个训练语句也撑不起来

聊天日志示例

结果显示,75%的人类评估者认为Blender比Meena更吸引人,67%的人觉得Blender听起来更像人类。尽管如此,大家都认为Blender的聊天技能还远远赶不上人类。

在本次研究中,FAIR团队只使用了14轮的简短对话作为评估范围,因为他们担心,如果聊天继续进行下去,目前的模型可能无法胜任。该项目的以为负责人Emily Dinan表示:“无法记住历史对话仍然是一个问题”。

另外,Blender所谓的“知识”,不过是一种整理,它最终是根据统计相关性而不是知识数据库自主生成语句的。例如,当他们介绍某一个名人时,他们能将连贯的描述串在一起,但往往带有完全错误的信息。

此外,对于所有开放式聊天机器人来说,防止说出有毒或者偏颇的话是一个重要的底线。2016年,当微软的聊天机器人Tay发布不久后,它因为设计上的漏洞,无法审核偏颇性的内容而最终被关闭。

Blender同样有这样的问题,由于Reddit公开语料库中的部分评论具有攻击和冒犯性,Blender偶尔会说出具有攻击和冒犯性的话。

但由于Reddit的数据集实在太大,研究人员目前还没有从数据中心过滤出有害的语言。

FAIR承认,Blender进行开放域对话还存在着众多的局限性:

1、词汇用法(Vocabularyusage):即使是最好的Blender模型也会过于频繁地生成一些常见的短语,比如“你喜欢吗”、“很有趣”和“有什么爱好”。

2、非平凡的重复(Nontrivialrepetition):模型经常重复对他们说的话。例如,如果对话伙伴提及爱犬,Blender会说他们有一只爱犬,或者同样喜欢的人。

3、矛盾和健忘(Contradictionand forgetfulness):Blender模型彼此矛盾,尽管在较大模型中程度较轻。他们也没有建立逻辑上的联系,经常会问以前问过的问题。

聊天机器人有多难做?94亿个参数、15亿个训练语句也撑不起来

Blender不断重复和自相矛盾

4、知识和事实正确性(Knowledge and factual correctness):Blender模型容易出错,尤其是在深入探讨某个主题时。

5、对话的长度和记忆力(Conversation length and memory):在长时间(几天或几周)的对话过程中,Blender对话可能会变得乏味而重复,尤其是考虑到Blender不能记住较早的对话。

6、更深入的理解(Deeper understanding):Blender模型缺乏通过进一步对话来学习概念的能力,并且它们无法扎根于现实世界中的实体,动作和体验。

应该说,如果我们要求聊天机器人能像人一样正常的交流,它不仅要具备基本的知识储备以外,还需要将这些知识“内化”,而不是当我们问及某个知识点时,它从浏览器上搜索一段话作为回复,这同时还要求聊天机器人具有判断能力。

另外,对生活的体验和感悟也是聊天机器人做不到的。例如说,我们给它分享一首音乐,它可能会跟我们解释这首歌的作词、作曲人以及歌曲的风格,它却难以跟我们描述听完这首歌之后的心情,因为它并没有真正的体验。

正如Facebook的研究工程师StephenRoller所说,开放域聊天机器人是一个“AI-complete”的问题,要解决对话,就要解决所有AI问题。

参考链接:

https://ai.facebook.com/blog/state-of-the-art-open-source-chatbot

https://www.technologyreview.com/2020/04/29/1000795/facebook-ai-chatbot-blender-beats-google-meena/


分享到:


相關文章: