聊天机器人有多难做？94亿个参数、15亿个训练语句也撑不起来頭條網

聊天机器人有多难做？94亿个参数、15亿个训练语句也撑不起来

2021-05-06 16:03:55 佚名

在正文开始之前，我们先来看一个国产的“智能”聊天机器人：

宋师傅给孙子买的机器人

虽然近年来聊天机器人和虚拟助手已经取得了一定的进步，但严格来说，它们还不够智能，大多数都是高度任务导向化、一问一答式的：你提出要求，它们就服从。当它不能回答时，就说“超出了我的理解范围。”

“xxx，帮我定个早上8点的闹钟”，“好的”。“拨打xxx的电话”、“播放xx音乐”、“导航去公司”......

目前来说，除此之外，我们并没有看到聊天机器人和虚拟助手其他更好的用法。机器人自主地与人类进行长时间的对话或就某一特定主题进行深入地探讨，目前市面上还没有这样的产品，要成为“人类的灵魂伴侣”，更是遥不可及。

哪怕是Facebook近日公布的集成了94亿个参数和15亿个训练语句的开放域聊天机器人Blender，也做不到。

4月29日，Facebook的AI和机器学习部门Facebook AI Research（FAIR）开源了一款新的聊天机器人Blender。

FAIR称，Blender是GitHub上最大的开放域聊天机器人，它可以用一种有趣的方式谈论几乎任何事情，其性能优于此前号称世界上最好的聊天机器人——谷歌Meena。

FAIR表示，与以往的机器人相比，Blender是多年来将同理心、知识和个性结合成一个系统的研究成果。为此，基本模型——受益于改进的解码和技能混合技术——包含多达94亿个参数(定义给定问题的技能的配置变量)，比谷歌Meena（26亿个）的系统多3.6倍。

不仅如此，为了在对话中生成响应打下基础，Blender还接受了Reddit上的15亿个公开的对话预训练。

为了评估Blender的聊天技能，FAIR的研究员将它与Google最新的Meena chatbot进行比较。志愿者需要从100条分别来自Blende和Meena的聊天日志中回答两个问题：“你更想和谁进行长时间的交谈？”“哪个聊天机器人听起来更加人性化？”

聊天日志示例

结果显示，75%的人类评估者认为Blender比Meena更吸引人，67%的人觉得Blender听起来更像人类。尽管如此，大家都认为Blender的聊天技能还远远赶不上人类。

在本次研究中，FAIR团队只使用了14轮的简短对话作为评估范围，因为他们担心，如果聊天继续进行下去，目前的模型可能无法胜任。该项目的以为负责人Emily Dinan表示：“无法记住历史对话仍然是一个问题”。

另外，Blender所谓的“知识”，不过是一种整理，它最终是根据统计相关性而不是知识数据库自主生成语句的。例如，当他们介绍某一个名人时，他们能将连贯的描述串在一起，但往往带有完全错误的信息。

此外，对于所有开放式聊天机器人来说，防止说出有毒或者偏颇的话是一个重要的底线。2016年，当微软的聊天机器人Tay发布不久后，它因为设计上的漏洞，无法审核偏颇性的内容而最终被关闭。

Blender同样有这样的问题，由于Reddit公开语料库中的部分评论具有攻击和冒犯性，Blender偶尔会说出具有攻击和冒犯性的话。

但由于Reddit的数据集实在太大，研究人员目前还没有从数据中心过滤出有害的语言。

FAIR承认，Blender进行开放域对话还存在着众多的局限性：

1、词汇用法（Vocabularyusage）:即使是最好的Blender模型也会过于频繁地生成一些常见的短语，比如“你喜欢吗”、“很有趣”和“有什么爱好”。

2、非平凡的重复（Nontrivialrepetition）：模型经常重复对他们说的话。例如，如果对话伙伴提及爱犬，Blender会说他们有一只爱犬，或者同样喜欢的人。

3、矛盾和健忘（Contradictionand forgetfulness）：Blender模型彼此矛盾，尽管在较大模型中程度较轻。他们也没有建立逻辑上的联系，经常会问以前问过的问题。

Blender不断重复和自相矛盾

4、知识和事实正确性（Knowledge and factual correctness）：Blender模型容易出错，尤其是在深入探讨某个主题时。

5、对话的长度和记忆力（Conversation length and memory）：在长时间（几天或几周）的对话过程中，Blender对话可能会变得乏味而重复，尤其是考虑到Blender不能记住较早的对话。

6、更深入的理解（Deeper understanding）：Blender模型缺乏通过进一步对话来学习概念的能力，并且它们无法扎根于现实世界中的实体，动作和体验。

应该说，如果我们要求聊天机器人能像人一样正常的交流，它不仅要具备基本的知识储备以外，还需要将这些知识“内化”，而不是当我们问及某个知识点时，它从浏览器上搜索一段话作为回复，这同时还要求聊天机器人具有判断能力。

另外，对生活的体验和感悟也是聊天机器人做不到的。例如说，我们给它分享一首音乐，它可能会跟我们解释这首歌的作词、作曲人以及歌曲的风格，它却难以跟我们描述听完这首歌之后的心情，因为它并没有真正的体验。

正如Facebook的研究工程师StephenRoller所说，开放域聊天机器人是一个“AI-complete”的问题，要解决对话，就要解决所有AI问题。

参考链接：

https://ai.facebook.com/blog/state-of-the-art-open-source-chatbot

https://www.technologyreview.com/2020/04/29/1000795/facebook-ai-chatbot-blender-beats-google-meena/

分享到:

關鍵字: 机器人语句 FAIR

聊天机器人有多难做？94亿个参数、15亿个训练语句也撑不起来

相關文章:

Excel VBA新手学习笔记 基础循环控制论

写好作文50条全攻略，送给不会写、写不长的孩子

Python While 循环语句

Python有趣时刻，这些代码让你大呼"怎么会这样"

MySQL8.0 新增 DML 语句（TABLE & VALUES）-爱可生

《锦绣未央》著作权纠纷入选北京法院知识产权十大案例

这些java基础，你是否都忘记了

【基础模块】简简单单看懂流程控制语句，你学会了吗？

数据库性能测试！MySQL调优「案例详解」

不使用 if-elif 语句，如何优雅地判断某个数字所属的等级？

儒家：《论语》语句，句句经典！双语互译

刚发现的一个java小世界

SQL 优化极简法则

VBA+ADO+SQL语句，小试牛刀。

VBA中的常用单元格引用方式

每天学点SQL(009) LIKE/BETWEEN/IN/IS NULL 常见谓词

教小朋友学 Python -- 条件与循环

Python 3 学习笔记：流程控制

MySQL事务提交过程（一）

聊天也能聊出感情？这3种聊天小心机肯定让你和12星座聊出感情！

逐步展开Python详细教学—Python语法

Oracle常用命令大全

2020社区工作者考试行测备考指导：“标志词”巧解行测语句排序题

社区行测技巧：“标志词”巧解行测语句排序题

C语言编程第14讲——C语言程序的三种流程

小疯谈python：（二）python语言的基本语法元素

一部小说抄袭12位作家的16部作品，被判赔偿74万元

【推书】值得人们一生阅读的书籍

小学二年级语文考试必考的排序题，掌握这些做题方法逢做必对

心理呵护之老年人的认知变化

这九句话容易给自己埋下危机，在工作中一定不能说

降低重复率这么做，论文一次就过

更新ORACLE，merge into速度让你想不到的快

通达信DLL编程(一)

java基础，复习ing

MySQL数据库设计规范

教你写一手漂亮的伪代码

《2020千锋Python入门视频全套全开源》多实用

都是“MySQL在搞鬼”差点倒在阿里三面，后面真是虚心一场

2020版千锋MySQL数据库零基础到精通教程，解决数据库苦恼！

盘点《围城》的经典语句

JavaScript的数组遍历的方法1 for循环

[sql] 数据库查询中select top的用法

这一波消费券，看看受益的都有哪些？

2020年中考语文必考23篇文言文情境默写，赶快来看！

你懂方法吗？读完本学期第二单元，五年级课外如何阅读四大名著？

大师一百——物理大师：高中必用二级结论总结

有哪些好用免费的文档翻译软件推荐？

奇奇怪怪的知识增加了，大括号的历史你知道吗？

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

为什么只有edg赚钱？

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

我们买的新商品房还没有拿到房产证，怎么转卖最好？

为什么突厥人可以成功复国？是大唐的刀不锋利了么？

小高层16层高楼间距60米哪一层比较好？

金银花盆栽好养吗？怎么养？

长城对于抵御古代匈奴和蒙古人起到了多大作用？

什么树可以嫁接腊梅？

行情堪忧，还有多少教育机构的老师们五一假期有课上的？课时量多不多？

在农村“立夏节”都有哪些民间习俗？

男朋友失望分手，但对我还有感觉，答应我两个月之后可以在一起，我应该怎么做，才能改变之前他对我的看法？

工程分包乙方人员伤残谁承担？

有哪些看起来毫不相关的两个历史人物实际上有过联系？

13年雪铁龙世嘉自动挡7万多公里，没有水泡事故，多少钱能买？

22+吃土少女17年就有驾驶证了，今年才开始开车，想买个二手昂克赛拉，或者有什么好建议吗？

如何骑车去台湾骑行？

本人预算5万左右，想买一辆二手法系车！求推荐？

14年进口马自达5PK进口10年道奇酷威买哪个划算？

2020年，河南教育行业国务院特殊津贴推荐，河南大学并列第三，大家怎么看？

本田CRV2019款1.5T舒适版油耗高吗？

国外疫情如果没有得到有效控制，世界会发生什么事情？头脑风暴？

本田XRV这款车的整体表现怎么样？我想买1.5T自动豪华版，全款多少钱？

现在存款有14万，借了5万还没收回来，该做什么好？

2070super和5700xt买哪个比较好？

生完二胎后，感觉自己有点抑郁，总是想发火，特别烦躁，怎么办？

人这一生遇到的人和事为什么感觉都像是必然的经历？

现在校内校外到底教的是美式英语还是英式英语还是混搭英语？

上有老下有小，我们真的跳不出这个人生循环了吗？

Excel VBA新手学习笔记基础循环控制论

装修高手来帮忙看下144平，套内122平，怎么三房改四房？？