智能语音100年

3月28日,2018年图灵奖出炉,该奖项被授予为深度学习领域的三名研究科学家,他们分别是:蒙特利大学的教授Yoshua Bengio,;Google工程师和哥伦多大学Geoffrey Hintion;Facebook的首席人工智能科学家和纽约大学教授Yann LeCun。

智能语音100年


图灵奖是计算机科学领域的最高奖,被誉为“计算机界的诺贝尔奖”,由国际计算机协会(ACM)设立于1966年,该奖项颁发给那些“对计算机领域具有持久和重大技术重要性”的个人。

图灵奖的命名来自于英国科学家阿兰.图灵,他生于1912年,在多个领域获得过巨大成就,正是他提出了通用计算机与人工智能的概念。

他提出了著名的图灵测试。即测试者与被测试者(一个人和一台机器)隔开的情况下,向被测试者随意提问。进行多次测试后,如果有超过30%的测试者不能确定出被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。

2014年6月8日,一个聊天机器人成功让人类相信它是一个13岁的男孩,成为有史以来首台通过图灵测试的计算机。

2019年,智能音箱普及,我们已经可以家中愉快的通过自然语言与智能音箱对话,甚至把智能音箱当作家庭成员。

智能语音100年


而在这我们的享受现代科技背后,是人类100年的追求与努力,有阿兰图灵的梦想,有一代代科学家的努力,也有这次获奖大牛的贡献。

一、 阿兰.图灵的梦想

阿兰.图灵,1912年生于英国伦敦。少年时就表现出在数学方面超凡的能力,念中学时获得过国王爱德华六世数学金盾奖章。

智能语音100年


1936年5月,图灵向伦敦权威的数学杂志投了一篇论文,题为《论数字计算在决断难题中的应用》。论文的附录里他描述了一种可以辅助数学研究的机器,后来被人称为“图灵机”,成为现代计算机的理论基础。

二战期间,图灵参加了德国恩尼格玛密码机的破解工作,在波兰数学家研究的基础之上,设计了破解机械加密的机械解密机”炸弹“(波兰人也设计了一种原理不同,功能弱很多的解密机“炸弹”,阿兰图灵用这个名字致敬波兰数学家的贡献。),在二战的贡献,让他于1945年获政府的最高奖——大英帝国荣誉勋章(O.B.E.勋章)。

智能语音100年


从一些文件来看,世界上第一台电子计算机可能不是ENIAC,而是与图灵有关的另一台被严格保密的机器,即图灵在战时服务的机构于1943年研制成功的CO-LOSSUS(巨人)机,这台机器的设计采用了图灵提出的某些概念。它用了1500个电子管,采用了光电管阅读器;利用穿孔纸带输入,出色地完成了密码破译工作。

1950年10月,图灵发表论文《机器能思考吗》这一划时代的作品,使图灵赢得了“人工智能之父”的桂冠。同年,他提出了“图灵测试”

测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。进行多次测试后,如果有超过30%的测试者不能确定出被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。

图灵梦想在2000年的时候,人类就可以用自然语言与计算机自由对话,而很难辩认出与之对话的是人类还是计算机。

不幸的是,人类的进度稍微晚了一点。

二、 语音识别的努力

阿兰图灵的梦想看上去只是一个科幻小说的故事,但是要实现它却非常不容易。

要实现计算机与人类的对话,首先要让计算机正确识别人类说了什么,而仅仅这一步人类就走过了几十年。

事实上,人类对语音识别的探索早于计算机,1920年代生产的“Radio Rex”玩具狗可以在呼唤到名字的时候从底座上弹出来。语音转化为电子控制信号早在电子计算机发明之前就有基础了。

而最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。

1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。

科学家对语音识别最初的理解是“机器的听觉系统”,把语音信号转变为相应的文本或命令,然后在转化成计算能够识别的信号。然后随后20年,人类停滞不前,因为科学家想用人类学习语言的方式套用到当年的电脑上,这是一条死路。

智能语音100年


70年代,来自捷克的犹太裔移民贾里尼克到IBM的华生实验室(IBM T.G.Watson Labs)做学术休假。他毕业于MIT,在那里,他遇到了信息论的鼻祖香农博士(爱迪生的远房亲戚,第一次将熵的概念引入到信息论),和语言学大师贾格布森(俄裔,提出通信六功能),而他老婆在哈佛上学,在陪读的时候,又听了乔姆斯基(他写的《句法结构》被认为是20世纪理论语言学研究上最伟大的贡献,将语言学科学化。)

在宽松的研究环境下,贾里尼克开始把统计学,信息论的一些方法引入到语音识别研究中,把60年代刚刚在统计学领域提出的隐马尔可夫模型引入到语音识别之中。

差不多在同时,线性预测编码Linear PredicTIve Coding(LPC),及动态时间规整Dynamic TIme Warp技术出现,这让语音识别去取噪音抽取语音和去除语速影响成为可能。

其实,贾里尼克并不是想在语音识别跨界研究的第一人,但是他很幸运的等到了计算机技术的进化,在70年代,计算机性能已经可以做一些探索,而IBM的华生实验室既有计算资源,又有宽松的环境。

于是,人类在语音识别上进了一大步。奠定了之后语音识别的理论基础。

同样在70年代,美国国防高级研究计划局DARPA(真真正的黑科技机构,互联网就是这个机构发明的),投入资金进行了五年的语音识别研究,目的是做成一台至少能理解1000个单词的机器。该计划使卡内基梅隆大学创造了一台能够理解1,011个单词的机器。后来,李开复搞的Sphinx也是卡内基梅隆大学的项目,而DARPA赞助的时间很长。

一直到苹果的Siri,也是DARPA在语音识别上的投资,一个说法是,这个项目是给战场战士,用于语音操纵武器的。还有说法是这个技术的用于互联网信息和电话监听的。

到了90年代,通过不断的计划,语音识别技术已经可以用比较高的正确率识别人类语言了。

当时的典型产品,就是IBM的 viavoice,90年代末期的家用电脑一度非常流行语音识别,语音操控。同时期还有DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform,Microsoft的Whisper以及Sun的VoiceTone等。

到2001年前后,语音识别输入技术已经能够达到比价高的准确率,具有了一定商用价值。

三、 人工智能强势介入

人工智能的发展并不比语言识别晚,在图灵提出人工智能设想之后,到了1957年,Rosenblatt就提出了“感知机”的概念,就是有一个输入层,一个隐含层,一个输出层。通过算法迭代完成一个解。

而多层的感知机就是我们今天非常熟悉的一个词——神经网络,这也是我们今天各种人工智能深度学习的基础。

在2006年之前,由于深度的神经网络存在局部最优解问题,长期停滞不前。2006年Geoffrey Hinton(就是这次获得图灵奖的大牛)基于深度置信网络(DBN)提出非监督贪心逐层训练算法,为解决深层结构相关的优化难题带来希望,随后有大量研究终于让深度神经网络实用化。DNN(深度神经网络)开始流行,带有卷积核的CNN(卷积神经网络)出现。

而当深度神经网络发展出带有时间戳的循环时间网络(RNN)之后,人工智能技术开始让语音识别有了质的飞跃。

此时,人们已经有了非常强大的GPU通用计算能力,有了互联网带来的海量数据供计算机做深度学习,大数据,人工智能与传统的语音识别技术结合起来,一个新的时代来临了。

此后,美国的谷歌、微软、苹果,中国的百度、科大讯飞、阿里、搜狗等企业都开始投入智能语音识别。

这一轮语音识别技术突破最广为人知的是苹果Siri,早期Siri的体验并不好,而苹果在2014年6月进行了一次重大升级,其核心就是从传统的语音识别技术转移到了机器学习技术的人工智能平台。此外,亚马逊的ECHO智能音箱也取得了商业上的成功。

在人工智能语音识别的潮流中,中国的互联网企业百度也做出了巨大的贡献。

早在2014年(亚马逊推出Echo之前),百度的研发团队,就利用深度学习技术,研发出Deep Speech系统。

到了2016年,百度的Deep Speech系统已经进化到第三代。

如前文所述,传统上对语音识别的人工智能技术是RNN(循环神经网络)。因为RNN是在DNN(深度神经网络)的基础上发展出时间戳,发展出长短时记忆单元,可以有解决时间序列的应用。语音识别是有时间序列的,所以业界对RNN用于语音识别的研究比较多。

而百度将深层卷积神经网络技术(Deep CNN)应用于语音识别声学建模中,将其与基于长短时记忆单元(LSTM)和连接时序分类(CTC)的端对端语音识别技术相结合,大幅度提升语音识别产品性能。这项技术借鉴了图像识别在近些年的成果,以及语音与图像在利用 CNN 模型训练的共通性,在语音识别技术上取得了革命性的进展。

《麻省理工科技评论》(MIT Technology Review)杂志在2016年度十大突破技术的榜单中把百度语音识别技术列为十大突破技术。

从“Radio Rex”玩具狗算起,大约100年后,人类终于攻克了语音识别的难关。

四、 从语音到语义

就语音识别而言,在人工智能技术深度介入到,已经达到了人类的水平,2017年,谷歌宣布对人类语言(英语)语音识别的正确率已经达到95%。而此前一年,百度对中文语音识别的正确率已经达到97%,这个水平已经超过人类的平均水平,识别已经不是瓶颈。

但是,听清语音和听明白说的是什么意思不是一回事。音识别可以把语音转化为正确的文本,而要理解文本的意思则需要自然语言理解

自然语言理解是一门与语音识别完全不同的科学。最早的自然语言理解方面的研究工作是机器翻译。1949年,美国人威弗首先提出了机器翻译设计方案。20世纪60年代,国外对机器翻译曾有大规模的研究工作,耗费了巨额费用,然而效果并不能令人满意。

和语音识别一样,随着人工智能深度学习的突破,自然语言理解有了革命性的突破。

在大数据的支持下,自然语言的词语切分,词性标记,实体命名识别,目的提取,可以用深度神经网络(DNN)技术解决。机器翻译可以用U循环神经网络(RNN)解决,句子解析,情感分析,关系分类,可以用递归神经网络解决,句子文本分类,语义关系提取可以用卷积神经网络(CNN)技术,自然语言生成可以用生成式对抗网络(GAN)技术。

深度学习在自然语言处理中几乎无所不能。语义理解获得突破性进展,我们今天能够享受诸如”ECHO”、“小度在家”这种优秀的产品体验,背后是人类百年来不断努力,不断追求的结果。

五、 不可限量的前景

对人类来说,自然语言是最快捷的交流方式。当语音识别与语义识别被突破之后,一个新世界的大门骤然开启。

像“小度在家”这种智能音箱产品只是九牛一毛。医疗、教育、金融、工业、农业甚至安防、军事领域……,智能家居、车载语音、可穿戴设备、VR设备、甚至是智能机器人。

智能语音技术未来几乎可以无所不在。

医疗方面,带有智能语音技术的电子病例系统可以为医疗专业人士提供实时语音听写、电子病历录入,可以通过对症状的描述,关键词查询,进行病症的初步判断,分类科室、辅助诊断……。

金融领域,基于智能语言技术可以实现人工智能柜员,人工智能客服,通过自然语音处理判断客户信用,进行风控,生产各种报表、报告……

教育方面,智能语音技术可以基于自然语言处理技术对口语能力进行的测评实现智能教育系统。

法律方面,可以对数字化法律文本、裁判文书等法律资料的检索。起草大部分的交易文件和法律文件甚至起诉书、备忘录和判决书

商业领域,可以实现虚拟客服,虚拟柜员在与客户的对话中,获取客户需求,并提供相应的答案来解决客户的问题。提供精确营销。

而在这些无穷无尽应用的背后,是智能语音的核心技术,提供核心技术的企业,将变成AI时代的入口掌握着,变成为智能语音时代基础方案的技术提供者和最顶级的入口。

回首百年,从阿兰图灵的梦想,在一代代人,一个个伟大公司的努力与探索之下变成现实。未来,智能语音将慢慢渗入我们的生活,改变我们的世界

前人百年的努力让今天的我们生活在更美好的世界之中。今天,勤勉的工程师和伟大的公司将继续探索前进,为我们的子孙开创更美好的未来。


分享到:


相關文章: