AI再次立功,科大讯飞语音识别率已达98%

AI再次立功,科大讯飞语音识别率已达98%

6月12日,科大讯飞在京举办了主题为“爱输入•更懂你”的媒体见面会,会上,讯飞输入法市场品牌负责人李强军介绍,目前讯飞输入法用户规模突破6亿,语音输入月覆盖率达50%。同时,讯飞语音识别率也从97%提升至98%,讯飞输入法支持扩至23种方言,为更好利用AI来保护方言,讯飞将启动方言发音人招募活动。

语音识别率从2016年的97%提升至98%

AI再次立功,科大讯飞语音识别率已达98%

有一个场面大家印象应该非常深刻,2016年10月锤子科技新品发布会上,罗永浩在现场用很快的语速随口说了一段内容,讯飞输入法瞬间“打”出文字,识别结果一字不差。当时,据讯飞输入法方面称,这款在2010年推出的输入软件,集语音、手写、拼音等多种输入方式于一体,语音识别准确率已超97%,按照微软方面的标准,97%已经是世界前茅的准确率。

AI再次立功,科大讯飞语音识别率已达98%

并且,科大讯飞讯飞输入法产品总监翟吉博在12日的媒体见面会现场宣布:其用户已经突破6亿,准确率提升到98%,语音渗透率保持逐年上升态势。

再次强化语音,一分钟识别400字

早在讯飞输入法诞生之初,便确定以语音为核心,全球首家支持智能语音输入功能。近一年来,讯飞输入法在输入效率和智能化方面取得了长足的进步,不仅做到一分钟识别400字,还支持多语种实时语音翻译、超长语音输入、耳语输入、方言语音输入等功能。值得一提的是,科大讯飞在感知智能、认知智能以及两种智能深度结合等领域均取得达到国际领先的研究成果,而这些AI黑科技正应用到讯飞输入法上,率先在行业内做到通用语音识别率98%。

AI再次立功,科大讯飞语音识别率已达98%

语音输入更精准的方法离不开数据和算法。讯飞输入法从人脑神经科学入手对人类记忆进行仿生,实现大量无监督的数据去辅助有人工标注的数据。受图像领域CNN应用的启发,科大讯飞独家研发了深度全序列卷积神经网络(Deep Fully Convolutional Neural Network,DFCNN)语音识别框架,使用大量的卷积层直接将语谱图作为输入,相比传统语音特征作为输入,有效降低信息损失,非常出色地表达语音的长时相关性。同时,借鉴了图像识别中效果最好的网络配置,每个卷积层使用3×3的小卷积核训练更深的CNN模型,输出单元直接与最终的识别结果(比如音节或汉字),从而使识别准确率显著提升。

AI再次立功,科大讯飞语音识别率已达98%

此外,讯飞输入法以自然语言交互方式——语音修改来解决当前技术束手无策的 2% 不准确。也就是说,使用语音输入的过程中通过自然语言说出指令来修改、添增、删除文字等操作。由于中文拥有复杂的多样性,同音不同义的词非常丰富,这对机器而言存在理解难度。所以,讯飞输入法新增语音修改结果多同音词候选,在机器不能准确理解语义时,通过人工选择更加高效。不仅如此,基于Cache Base Fast Adapation技术,讯飞输入法独创的“智适应”支持一次修改自动记忆修正结果,再次输入相同内容精准识别。

AI再次立功,科大讯飞语音识别率已达98%

受制于复杂的环境,像含糊不清的口音、噪声环境、多人对话场所等都给语音识别造成影响,一旦识别错误就可能改变整句话的意思。对于口音和方言识别的难题,讯飞输入法提出方言语音输入方案来解决。依托科大讯飞对AI技术及语言深度研究的积累,采用Multi-lingual多语言建模,通过多方言数据共享方式训练;辅以Global Phone全球音素集,从声学层面的相似性统一各方言的音素定义,对方言“语图谱”模型做进一步精进,从而有针对性地提升方言语种的识别能力。目前讯飞输入法支持22种方言,其中粤语、四川话、东北话等识别率均已超过90%。2017年讯飞输入法对外发起“方言保护计划”,建立“中国方言库”,用智能语音留存、发展承载传统文化积淀的方言,积累了海量方言数据,是讯飞输入法得天独厚的深度学习素材,方言识别率日趋精准。本月底,讯飞输入法还将新增苏州话识别,方言识别语种将扩充至23种。

基于科大讯飞精简和优化的Hybrid-DFCNN全新语音识别框架,6月底讯飞输入法将上线Hyper-CNN语音新引擎,随之通用语音识别准确率将相对提升15%,此外有效优化中英混合语音输入、粤语等重点方言、标点判断准确率,提升语音输入的体验。

AI再次立功,科大讯飞语音识别率已达98%

人工智能正从感知智能向认知智能跨越,科大讯飞人工智能应用愿景正在从“能听会说”到“能理解会思考”。在科大讯飞看来,手机端输入方式发生了巨大的变化,语音输入已经达到了实用的门槛,语音交互的比重越来越大,加上对涟漪效应的理解,讯飞输入法已经成为高粘性的工具类产品。媒体见面会现场,讯飞输入法市场品牌负责人李强军介绍,讯飞输入法用户规模突破6亿,语音输入月覆盖率达50%,语音渗透率保持逐年上升态势。

AI赋能方言语音输入

随着经济、文化活动的全球化现状以及区域经济的迅速发展,导致主流语言或通用语言更加强势,同时也使得弱势语言的交际功能不断衰弱,甚至濒临消亡。目前世界上的语言大约有6000—10000多种,据语言学家预测,大部分语言将于本世纪末消失。因此,濒危语言保护已经成为了一项极重要而迫切的工作。

AI再次立功,科大讯飞语音识别率已达98%

科大讯飞多语种高级研究员祖漪清在现场讲述了方言势微的现状。现在我们身处人工智能崛起的时代,利用人工智能技术进行濒危语言、方言系统地研究一个语言的语音结构、语言结构,实现对一个语言的完整“复制”迫在眉睫。因此,本次媒体见面上正式启动了“AI方言发音人招募”公益行动。

AI再次立功,科大讯飞语音识别率已达98%

视频加载中...
-->


分享到:


相關文章: