语音交互的“芯”时代,最低成本的通用化语音模块提速家居智能

据了解,目前涉足AI领域的芯创公司约有1700家(Compass Intelligence最新发布的研究报告),可见AI芯片的市场竞争已经在逐步展开,人们对于芯片本身功能的期望变得多种多样,毕竟从最初只是使用在电脑、手机等少部分终端上,到现在可以说芯的应用是无处不在,而语音交互作为人工智能领域的一个重要分支,早在14年就有其相关的芯片解决方案出现,但那时候的语音交互方案大都是以云端为主,甚至到现在云端+芯也还是主力。

这样的现象导致云存储的需求不断被提升,但实际上真正有意义的交互内容可能都不到存储数据中的一半,并且如果是连接云端识别,整体交互能力的成本会过高,不利于其技术大规模的落地商用。因此想要降低成本,首先得从终端设备里面寻找出人机交互实际具体的需求,先满足更加细分的终端和场景,比如像开关灯、开关电视、调节空调温度等家庭场景下出现的家电控制需求。

为了更好的了解语音交互与芯的结合,在第318期i访谈,联动原素邀请了上海互问信息科技有限公司创始人缪炜,来分享围绕三大应用场景下,提出的最低成本的语音交互解决方案。

联动原素:“互问目前的核心业务是什么?”

缪炜:“互问核心的业务是语音交互。主要产品也是围绕语音交互展开,完成一次语音交互,主要包括麦克风语音信号采集、语音降噪、本地唤醒/识别、云端语音识别和云端语义理解和本地TTS播报。互问的核心业务和技术涵盖了一次语音交互过程中所有的部分,除了暂时我们没有涉及TTS。”

联动原素:“目前有哪些标准化的产品或服务吗?”

缪炜:“目前互问的产品主要集中在三大类,同时也是三大应用场景。

第一,本地声控类。这类产品的特点是不联网,不走云端。所有语音识别为本地芯片处理。比如家电产品,替代原来传统遥控器或者触摸按键。

第二,音箱故事机玩具类,这类产品中大家比较常见的是智能音箱。其实现在智能音箱已经是一个比较广泛的概念了,很多新兴应用都脱胎于智能音箱,比如智能按摩椅上面一般也会具有语音交互和音乐播放能力。所以说广泛意义上的智能音箱定义应该是:具备语音交互且可以进行音乐播放能力的设备。

第三,车载类应用。主要针对车载中语音控制、中控娱乐系统等。以及其他后装市场中的语音类应用。”

语音交互的“芯”时代,最低成本的通用化语音模块提速家居智能

联动原素:“看来是有三种标准化形式的解决方案了,能具体举个案例说明一下,如果我想给一

个硬件添加语音交互能力,最短会花费多长时间?多少成本呢?”

缪炜:“这里我以一盏普通的台灯为例,大概可以分为三个步骤。

第一步,在台灯底座上留出我们语音模块的空间,给我们模块供上电;

第二步,对接我们语音库,挑选出和台灯控制有关的控制命令,并对接好通信协议;

第三步,装上麦克风,既可以开始体验声控台灯的便利了;

整个过程2天内可以完成,费用不超过20元。”

联动原素:“这20元费用内是只包含我们模块,还是说后续还有一些增值的服务呢?如果包括后续服务的话,针对客户的服务模式有几类呢?”

缪炜:“这个价格包含了所有增加的成本。目前我们大部分客户是使用代理商服务模式。我们在华东和华南有一些具有设计能力的方案商。他们可以解决用户从前期开发到批量量产的大部分问题。对于少部分有特殊需求或者定制化的客户,我们会分配技术开发资源和客户一起支持用户产品化,未来是否会有新的服务模式主要取决于用户的需求和产品的形态是否出现了新的改变。”

联动原素:“在实际服务客户中,互问会在哪些产品或者业务上增加投入呢?或者说在研发技术方面投入较大的是哪些呢?”

缪炜:“去年互问主要的产品形态是软件服务,今年我们主要以通用化语音模块和偏向通用化的语音硬件方案为主,软件和应用内置于硬件中。这样对客户来说具有更高的使用价值和更快的开发周期。今年我们在硬件标准模块上投入了大量的人力物力资源,特别是本地声控模块和语音整体交互产品上,不光在核心交互技术研发上加大了投入,在硬件和供应链上也投入巨大。”

联动原素:“能介绍一下本地声控模块和之前软件服务之间的区别吗?”

缪炜:“比如之前有客户需要添加声控功能,一般客户会向我们提出需求,我们会和客户讨论解决方案,然后客户去开发硬件和电路,我们提供软件服务,最后和客户进行联调。这个周期一般比较长,而且中间会碰到各种问题。

现在我们提供标准模块,用户可以最少在两天内完成之前需要2个月才能完成的产品开发,而且用户完全不需要考虑声控功能的开发。”

联动原素:“成本及使用周期缩短的话,会影响到交互体验吗?”

缪炜:“最终达到的效果和软件服务是一样的,只是我们把原本用户需要考虑的和需要用户去做很多事用硬件模块标准化出来了。”

语音交互的“芯”时代,最低成本的通用化语音模块提速家居智能

联动原素:“目前有许多关于语音交互产品,大都依靠着语音交互的开发平台及解决方案提供商,您认为在同类的产品中,互问在技术或商业模式上有哪些优势呢?”

缪炜:“互问科技从成立之初,就立足做能进入千家万户、能让语音真正成为用户好帮手、能让用户对语音交互产生粘性的语音交互产品。所以我们从家电入手,从最简单替代遥控器和触摸按键开始,做一款真正用语音能替代遥控器的产品。然后从用户使用习惯入手,将语音唤醒词去掉,更加贴近真实的用户使用场景。我们始终认为,要想培养用户使用语音的习惯,先从用语音控制一盏台灯开始吧。

和大部分云端平台的产品相比较,我们更加注重行业应用,更加注重行业的内容和知识布局,避免开放平台千遍一律、用户无法修改和定制、交互古板的不足。我们可以给与用户很大的自由度和开放性。”

联动原素:“用户很大的自由度和开放性如何体现呢?”

缪炜:“我们不管是本地端还是云端,用户可以自由的选配符合他们产品和行业特点的应用。 举个例子,我们云端的内容,用户是可以自己选配和修改操作的,本地端的用户也可以自由选择我们提供的唤醒词,可以自由选择符合产品的控制命令,这个逻辑和部分平台可以让用户自定义自己的对话的逻辑一样。”

语音交互的“芯”时代,最低成本的通用化语音模块提速家居智能

联动原素:“可是唤醒词的模型修正不是需要不断运用数据去喂养的吗?我们能达到怎样的准确率呢?”

缪炜:“是的,这点说的很对。互问从成立的第一天开始,同时也开始了数据的录制工作。我们目前在北京,上海,深圳和成都都有稳定的录音地点。公司成立以来,我们自己录制的数据已经超过5000个小时,总的数据量已经接近8000个小时。数据涵盖了绝大部分的家电控制命令。而且包含了新闻、财经、体育、医药、天气、娱乐、军事等多方面内容。

数据是语音交互的基础,未来,一方面我们会继续扩大数据的数量和覆盖度,另一方面,我们会特别关注在如何构建高质量的数据,剔除噪声数据的影响,即如何使用高效数据的问题上。”

联动原素:“您如何看待百度宣称的未来语音交互无唤醒词这一说法?”

缪炜:“首先,完全无唤醒的语音对话是人机语音对话追求的终极目标。但是我觉得短时间内还很难完全实现。因为这并不是单单语音识别的问题了,语音识别只能把语音变成文字,它并不能选择性的将哪些语音变成文字,哪些语音不要变成文字。这也不单单是现阶段云端语义理解的问题,先阶段语义理解解决的是正确的理解一句话或者是某个情景内上下文的话。

这个问题应该是一个具有较高先验知识的深层次语言理解问题,它也不可能完全只是接受语音这一个维度的信息就能作出如此精准的判断,往往还需要结合其他各种维度的信息综合判断,比如时间、地点、环境、视觉、话题等等信息。

互问目前已经在本地声控上实现了完全无唤醒词的语音交互了,接下来我们将会追求在更大应用场景下的无唤醒自由对话。”

联动原素:“您认为未来的语音交互技术和应用会发展成什么样子呢?都会是端智能的时代吗?”

缪炜:

“首先我回答后面一个问题,未来一定是端云结合的一个模式,对于家居一定是分布式的智能模式。

当前的语音交互技术已经从十几年前的不被人接受,到现在走进了寻常百姓家。可以说现在大部分人群都或多或少接触过、使用过语音交互技术。这得益于语音助手、智能音箱、机器人等产品的普及,同时我们不可否认的是人们还并没有养成使用语音交互的习惯,更没有对语音交互产生依赖。但是在很多应用场景下,语音带来的便利性确实是无可取代的。比如晚上睡觉的时候,用语音控制灯光和空调,找不到遥控器的时候可以语音操控电动升降晾衣架……。我坚信未来语音交互一定会成为人机交互的主要方式,因为语言是人类交流的最主要方式。”

精彩吐槽环节:

周洪波:“天猫精灵或amazon echo属于第二大类应用?里面的语音交互模块类似你们提供的模块?”

缪炜:“对的,天猫精灵类的应用属于我们提供的第二大类的应用。天猫精灵属于中转控制类,我们前面提的智能灯属于直接本地控制类。”

鲁峙:“目前的模块能同时支持多少唤醒词?”

缪炜:“可以最高支持50条以上的指令。”

陆伟铭:“能做个性语音识别吗?

缪炜:“目前模块支持无唤醒模式和唤醒模式两种。”

胡彬:“我有个傻瓜问题:80%以上的中国人普通话都不标准,中国的方言有万千,这会是困难吗?如果是,怎么解决?”

缪炜:“首先我们要区分方言和方言普通话,方言就相当于一门独立的语言,这个和外语的语音识别是一样的,而带方言普通话的识别,就是我们一直追求和改善的方向,这个可以通过数据、算法来改善。”

鲁峙:“对男女,童声的识别有何差别吗?”

缪炜:“男女没什么差别, 童声有影响,一般针对儿童产品,我们会添加专门的儿童数据,比如儿童护眼灯。”

祁卫:“是否方便透露前端(麦克风语音信号采集、语音降噪、本地唤醒/识别)用的芯片是谁家的?”

缪炜:“语音模块核心芯片是我们定制的M4的核,我在深圳有和贵公司探讨过。”

鲁峙:“模块声音识别后,以哪种格式反馈识别结果呢?”

缪炜:“我们是前端+本地一体化方案,全部做在本地语音模块内,模块识别后语音识别结果通过UART,I2C,PWM等接口反馈。”

胡彬:“我儿子才五岁,每天对着Ipad语音,Ipad总是回答他:对不起,我没听明白你讲什么!”

缪炜:“ipad 主要针对大人。”

鲁峙:“模块声音识别后反馈的是编码吗?”

缪炜:“UART通信协议。”


分享到:


相關文章: