自然语言处理畅谈之机器翻译技术发展历程

目前各个国家和民族的不同种类信息不断融会贯通,不同语言之间的翻译已经成为当今社会基本需求之一。小到出国旅游翻译或者资料翻译,大到基于互联网的跨境电商、跨境旅游、外贸、O2O、海外租车、金融服务等国际化业务实施,都面临着一个无法避免的问题:多国语言的翻译。针对网络上海量和动态变化的多语言信息,如何进行低成本和快速实时翻译,从而实现有效交流?基于人工翻译来解决这个难题是不可想象的,因为翻译人员的人力成本越来越高,所以唯一的解决方法就是充分利用机器翻译技术,提供智能自动翻译服务。

机器翻译技术可以将一种语言文字自动地转换为另外一种语言文字,应该是解决翻译问题的终极技术手段之一。机器翻译研究最早始于1949年,美国洛克菲勒基金会自然科学部门的负责人沃伦·韦弗(Warren Weaver)发表了一份以《翻译》为题的备忘录,由此翻开了历史性一页。据统计,世界上大约有6000多种语言,但很多语言已经接近绝迹。利用计算机软件实现不同语言之间的智能翻译,成为了人工智能领域的一个梦想。也有人称机器翻译是自然语言处理领域的皇冠明珠,只有解决了语言分析的所有难题,才能真正攻破机器翻译这座堡垒。


自然语言处理畅谈之机器翻译技术发展历程


近十几年来,机器翻译研究及产业化在各国政府和产业界的大力支持下,取得了快速进展我国政府把包括机器翻译技术在内的自然语言理解研究列入国家中长期科技发展规划纲要中。美国政府在2009年把自动翻译列为最具影响力的未来十大技术之一。美国国防部所主导的“2049”计划和BOLT项目都将机器翻译作为现代信息技术中的制高点进行重点攻坚。产业界如谷歌和百度等互联网巨头也将其作为在线服务的重要入口。据报道,谷歌翻译每天为全球两亿多个用户提供服务,每天翻译次数达10亿次,每天翻译处理的文字数量相当于100万册图书,超过了全世界的专业翻译人员一年能够翻译的文字规模。机器翻译具有重要的理论研究和产业应用价值。

早期的研究人员将机器翻译技术看作加密、解密过程,利用双语词典作为密码本,实现基于双语词典的简单转换翻译,由于低估了自然语言本身的词汇翻译和结构转换歧义性等困难,应用十分有限。随着计算机软硬件发展和计算语言学理论方法的日趋成熟,机器翻译研究不断取得突破性进展。从基于规则的翻译技术,到基于实例、基于模板、基于翻译记忆等翻译技术,最终发展到目前主流的统计机器翻译技术。

统计机器翻译技术的最大优点在于,只需要提供一定规模(如百万级乃至千万级)的双语句对库,翻译系统自动学习3-5天就可完成系统构建,无须任何人工干预。另外,从翻译性能来看,基于大规模双语数据自动训练学习的统计机器翻译系统性能表现更优。统计机器翻译技术本质上是数据驱动的方法,利用机器学习方法从大规模双语句对库中自动学习训练翻译模型和语言模型,基本上不需要人工干预;如果用于训练学习的计算机硬件运算资源越丰富,所需要的训练学习时间就越少。

自20世纪80年代末提出IBM模型以来,统计机器翻译技术逐步从基于单词的方法、基于短语的方法发展到基于句法的方法。与基于词/短语的翻译方法不同,句法翻译模型可以利用句法分析结果来指导翻译过程。从理论上说,由于句法树可以更加全面深入地表示句子的结构信息,句法翻译模型可以提供更多的语言学依据来辅助结构翻译和调序。然而在大多数实际翻译任务中,这种理论优势并未得到充分体现,译文质量没有显著提高,反倒是句法翻译模型复杂度和计算量均呈指数级增长。相比之下,跨语言语义的差异性要远小于句法的差异性,即语义比句法具有更强的跨语言等价性。目前统计机器翻译研究缺乏对语义等深层次语言学信息的有效使用,基于短语和基于句法的方法本质上都没有利用语义知识来进行翻译建模。很早以前就有研究者尝试在统计机器翻译中引入语义信息,但是由于语义框架的不完善及语义分析系统的性能瓶颈,基于语义的机器翻译面临很大挑战,并成为目前的研究热点。

一个统计机器翻译系统构建框架包括双语句对自动词对齐、翻译规则抽取、翻译特征打分、语言模型和调序模型训练、翻译特征权重调优、翻译解码和翻译后处理等几部分。机器翻译系统的开发和调优实际上是非常复杂的,从目前国际机器翻译技术评测研究报告上看,通常采用增加训练数据、训练更强大的语言模型、扩大解码搜索空间和使用更加复杂的模型及参数等四种方法,来改善统计机器翻译系统性能。很多与之有关的研究成果对机器翻译特别是对统计机器近些年的发展起着至关重要的推动作用。


分享到:


相關文章: