能与用户长时间沟通,还不会将天聊死的小冰,技术秘诀是什么?

在众多的语音助手中,微软小冰是一个另类的存在,因为她不仅可以完成具体的任务,兼具IQ和EQ的她,还可以与人类用户进行长时间沟通,且不会把天聊死。

此前,小冰进驻了小米米家Yeelight语音助手。在Yeelight中,小冰既可以控制家居设备,比如小米床头灯,还能完成闹钟设定、天气查询、数学计算等任务,而与普通的语音助手相比,小冰会唱歌、讲故事、做游戏,在无需频繁唤醒的情况下,能与用户长时间的聊天。

3月28日,微软召开小冰技术交流会,介绍了小冰背后的技术——全双工语音交互技术。全双工语音交互,则如同人与人之间的交互,能够实时、双向、连续的进行,使人机交互更加自然,更符合人类之间的交互特征。

"全双工代表着人工智能与人类自然交互的方法,以及其背后蕴含的内容服务、知识体系、知识图谱之间的关联,这一技术将使人工智能在未来发挥更加重要的作用。"微软(亚洲)互联网工程院副院长、微软小冰全球负责人李笛说。

采用Session-oriented底层框架的全双工语音交互

目前,一些智能语音助手,尤其是智能音箱,通常的功能是播放音乐、查询天气、购物、计算等,但无法与用户进行长时间沟通。而目前的对话式人工智能,并不是全双工,最多是半双工,核心原因在于底层框架的限制。

李笛介绍,有关基础框架的基本理念有两种:Turn-oriented(面向单个任务)和Session-oriented(面向对话全程)。智能语音助手多采用Turn-oriented框架。在这样的底层框架内,每一轮对话如同十字路口,中心部分就像指挥交通的民警,每当用户输入命令,民警就迅速将结果引导到相应的地方。

以天气查询为例。如果用户查询天气,十字路口的民警就会将对话引导到提供天气内容,然后提炼天气内容,再以对话的形式输送给用户。如果用户提出的问题,它无法引导到相应位置时,就会提供搜索协助。当此任务完成后,民警将对话拉回到十字路口的中心,一切归零。下一个任务,再重复这样的步骤。

"这样的语音助手能很好地完成每个任务,但永远无法离开十字路口的中心。"李笛说。

正是如此,这些智能语音助手无法很好地与人类用户进行交流。智能音箱或智能手机助手,就只能扮演工具的角色,而无法完成更多的增值服务。

李笛认为,尽管采用Session-oriented的框架更复杂,但这是未来的趋势。"Session-oriented就像河流,从一个turn走向另一个turn,这个turn可能跟任务有关,但在任务之后,会进入下一步交流,随着交流则可能引发新的任务。再通过新的任务引发一些知识的了解,然后走下去,通过这样的方式进行流转。"

采用这种框架的好处在于,如果只关注单一任务的完成质量,关注点在于是否能把该任务完成,而看不到整体的变化,Session-oriented的框架则能避免这个问题,因此关注整个Session的时候,整个Session的质量会优于任何一个单一任务完成的质量。

小冰能够通过全双工语音交互技术,在前端表现得更自然,并与用户进行长时间沟通,正是因为后端采用了Session-oriented的框架。

"在AI语音交互时代,真正重要的并不是具备100个或1000个功能,而是使用是否方便。如果使用不方便,即使再多的功能,用户也只会停留在浅尝辄止的程度。但如果人机交互很自然,哪怕功能很少,用户也会经常使用,就像日常使用手机那样。"微软小冰全球研发负责人、首席架构师周力说。

采用Session-oriented框架的全双工语音交互技术则是保障自然交互的基础。

全双工语音交互的四个技术突破

一年多以前,小冰团队就开始研发全双工语音交互技术。如今,在全双工语音交互方面,小冰有了四大技术方面的突破。

技术一:使用预测模型和动态回应实现边听边想

人和人的对话,并非一个人说完,另一个人再去倾听、思考。小冰与用户的交互过程中,也在努力实现这一点。

由此,小冰采用了边听边想的技术,也就是说,在对话最初,小冰就会在云端预测用户将要谈论的内容,如果跟事先预料的不同,就随时调整思路,通过这样的方式,能够实现更快的响应速度和改口能力,做到用户的语音刚落,小冰就快速回答,而她的回答也会不断变化,从而给用户提供不一样的互动。

边听边想的背后是预测模型,小冰对语音的识别不再是一条消息、一条消息的识别,而是一个字、一个字的识别,她每听到一个消息,就会试图去识别出目前可能的内容,同时预测用户的整句话是什么。

在预测模型基础之上,再加入动态回应技术,通过此技术,交互过程中,不再是用户输入一条,小冰回应一条的回合制回答,而是根据预估的思考时间、复杂任务的完成时间,有选择地将人工智能的对话拆解为多段,从而减少用户感知的等待时间。

技术二:使用节奏控制器掌握谈话节奏

边听边想技术能够给用户提供不一样的互动,但在人与人的对话中,说什么固然重要,但何时说也同样重要。因为,在人与人的对话过程中,并非一个人说一句,另外一个人回一句这样的模式。而可能是一方倾诉,一方倾听。

小冰如何处理这样的过程?当对话陷入沉默,小冰又如何处理?是提供新内容,还是抛出新话题,抑或是强制维持原话题?

这些都涉及节奏控制,使用节奏控制器,小冰就能很好地适应这样的场景。在与人类用户交互的过程中,如果用户是倾诉者,话更多,小冰就会将自己调整为倾听者,使自己的话更少。

技术三:对声音场景的理解

传统意义上的语音识别是指通过一段语音,识别其中对应的文字,只要识别出其中的文字,任务就已完成。因此很多语音识别的技术,有一个指标是对应文字的准确率。

然而,人类在互动中,人的耳朵接收的信号,不仅要翻译成文字,还要接收并判断其他大量的信息。简单来说,对方的性别、年龄是什么,对方的情绪又如何。只有正确处理这些信息,才能有适当的对话。

同样,小冰也需要处理这些问题。作为聊天机器人,小冰则通过语音进行这样的识别。周力举了一个例子,小冰在与一个用户对话的过程中,夸赞用户:姐姐你真漂亮。这说明小冰能够区分用户的性别。

小冰拥有讲故事的能力,如果与小冰对话的是儿童,那她就不会讲成人故事。而作为以EQ见长的聊天机器人,必须辨别用户的情绪,才能正确处理如何对话以及对话的内容。"对高兴的人或生气的人,小冰要有不同的对话策略,做出不同的回答,这样才能给用户提供更好的体验。"周力说。

而在家庭环境中,是什么样的人在说话,身份是什么,在家庭中扮演什么角色,他们是在打电话,还是互相聊天,还是在与小冰对话,以及小冰听到的是电视里的场景,还是真实的对话,等等。当小冰随同Yeelight进驻到家庭环境中时,都需要小冰识别并进行理解。

技术四:生成模型

周力认为,对话机器人最开始的技术,是基于模块和人工定义的QA系统,比如对话中含有某些关键字,或符合某一个regular expression(正则表达式),回答哪一句话,就去匹配相应的模块。然而,通过这种方式只能将整句话作为消息进行处理。

四年前,小冰推出了第一代对话引擎,在业界率先使用大数据的搜索技术进行对话,如同搜索引擎的查找功能,小冰会根据用户的谈话内容,在互联网中搜索人类相应的回答。在这样的机制下,小冰每说过的一句话,实际上都是人类在互联网上说过的话。而这样的技术,也是小冰各种话题都能涉及的基础。

周力表示,以搜索为基础的技术同样存在问题,那就是每一次搜索,无法搜索单个字词,必须将整句话作为一条消息,进行搜索,才能达到相应的搜索结果。因此,这种方式无法做到动态调整,也很难做到边听边想。

运用生成模型则不一样,据周力介绍,尽管生成模型从目前产生的对话质量来看,与之前搜索技术产生的对话质量相差无几,但生成模型本身更适于一种引流性交互的模式。

通过生成模型,可以实现更好的浓缩性,也可以和语音合成更好的场景,因为,第一个词出现时,已经开始生成对应的语音音频文件。

生成模型还可以帮助对整个场景的理解,并判断对话何时结束,如果使用传统模式,或通过搜索技术,就很难做出这样的判断,达到这样的效果。

小冰的商业布局:IoT和IM

据李笛介绍,拥有全双工语音的小冰会重点布局在IoT领域,Yeelight语音助手只是开始,在IoT之外,小冰已经布局在众多IM中,比如微信,QQ,微博等。

对于今天的小冰来说,她有三个身份,一是对话机器人。在这方面,小冰有很多解决方案,比如在QQ群中,作为群助手,除了交互之外,还能提供很多群所需要的功能,此外,全球小冰已经在14个平台上。

通过EQ+IQ,小冰还能成为私人助理,完成具体的工作,比如在Yeelight语音助手中,小冰就可以提供开关灯、天气查询等服务。

与其他语音助手不同,小冰还能扮演内容提供者的角色,据李笛介绍,小冰播放的少儿故事已超过4万小时,这些少儿故事的制作,如果不算研发投入,生产成本不到1000元,如果使用人工制作,花费则要将近千万。

李笛表示,他们对小冰的期望,并非让小冰依赖某一个实体,而是无处不在,无论是车上、家里,甚至工作环境中、手机上、电脑中都有小冰的存在,一如电影《Her》的女主角。


分享到:


相關文章: