当AI翻译能识别“语境”,我们的“地球村”梦想就不远了

当AI翻译能识别“语境”,我们的“地球村”梦想就不远了

文|曾响铃

来源|科技向令说

《圣经.旧约》里记载着这样一段故事:

当时人类联合起来兴建希望能通往天堂的高塔,为了阻止人类的计划,上帝让人类说不同语言,使人类相互之间不能沟通,计划因此失败,人类自此各散东西。

巴别塔典故,为世上出现不同语言和种族提供了解释。尽管互联网的出现,让“地球村”的梦想在地理空间上不再是遥不可及,但语言理解与文化背景成为了全球沟通最大的障碍,又生生的让梦想变得骨感起来。

好在,各大搜索引擎都推出了AI翻译。

AI翻译这条赛道上,巨头们都绕不过的“坎”

AI翻译作为垂直搜索产品,因其明朗的落地应用场景而备受巨头们关注。

2016年,GNMT技术(谷歌的神经网络机器翻译技术,模仿人脑的神经思考模式)全面布局于谷歌翻译系统中,随后,谷歌声称其AI翻译的译文质量误差降低了55%-85%,并且将此技术广泛应用于网页翻译与手机应用。

搜狗、阿里、腾讯等公司也都有部署NMT领域,推出多款基于神经网络的在线翻译和手机应用,在智能翻译领域持续发力。360搜索自占据国内搜索引擎行业二哥的位置后,同样专注在AI领域与其他巨头角力,上线了基于NMT的360翻译,以期与去年上线的360英文搜索“双剑合璧”。

但是我们会发现,不论是谷歌还是BAT,其智能翻译从未能声称能替代人工翻译,因为翻译还必须考虑到到使用者的情感及文化背景。从2016年起至今的两年时间里,对海量语料的深度学习逐渐成为AI开发的必修课,也成了巨头们布局AI翻译绕不过的“坎”。

正是在这样的背景下,360翻译的深度学习调度平台卯足了劲,在深层技术和语料挖掘上下苦功夫。除了发挥360搜索在新闻资讯方面的既有优势外,360的英文搜索还与微软旗下的搜索引擎Bing开展技术合作,从而使得其AI翻译背后坐拥海量中英网络语料,让其在理解语境方面更显地道。另外,360翻译采用的也是独家研发的360NMT技术。

但这依然还只是个开始。

搜索平台不约而同发力NMT,为的是哪般?

当AI翻译能识别“语境”,我们的“地球村”梦想就不远了

据统计表明,全球一共有73个国家,超10亿人以英语为官方语言,而汉语则是世界使用人数最多的语言,因此,中英互译本身的用户基数市场就能引起巨头们足够的注意力了。为什么要发力NMT,这得从AI翻译人类语言的方式说起,包含三种:第一,基于规则的机器翻译方法;第二,基于实例的机器翻译方法;第三,基于统计的翻译方法。SMT与NMT都属于第三种,从语料自动学习翻译模型,结合大数据通过评分输出翻译结果。

但是,SMT与NMT存在着显著的差距。SMT采用的模式是通过平行语料进行统计分析,翻译的准确性则与语料的丰富度呈明显的正相关,但是存在着翻译结果太过零散,片面生硬,语法语义混乱的劣势。而模仿人类神经网络构建模型,NMT是以一个句子为基本的处理单元,好处在于翻译过程中有着更好的语感,能降低SMT翻译的关于“形态、句法、词序”等方面出错的概率。因此,NMT在技术上恰巧可以有效弥补SMT的缺陷。而随着语料不断地加码,AI翻译的准确度也就高得多。

AI翻译引进NMT技术,就能精准识别“语境”吗?

第一组:献上我的膝盖。看看,最近这句网络常用语各翻译平台的水平

谷歌:Offer my knee。

360:express my admiration。

搜狗:Give me my knee。

第二组:诗词,选自杜甫的《登高》。因其诗中主要是以诸多意象组成的意境,看翻译能否反馈这种情感。

《登高》原文摘选:

风急天高猿啸哀,渚清沙白鸟飞回。

英语译文:

当AI翻译能识别“语境”,我们的“地球村”梦想就不远了

当AI翻译能识别“语境”,我们的“地球村”梦想就不远了

当AI翻译能识别“语境”,我们的“地球村”梦想就不远了

当AI翻译能识别“语境”,我们的“地球村”梦想就不远了

第三组:新闻,选自红网。语言简练正式,但涉及的元素较多,对语法的要求性比较高。

原文:据长沙市住房和城乡建设委员会网站显示,2018年5月23日,长沙共计有两个项目获批预售证,均位于雨花区,分别为五矿万境蓝山和创元时代。

译文:

当AI翻译能识别“语境”,我们的“地球村”梦想就不远了

当AI翻译能识别“语境”,我们的“地球村”梦想就不远了

当AI翻译能识别“语境”,我们的“地球村”梦想就不远了

当AI翻译能识别“语境”,我们的“地球村”梦想就不远了

因此,AI翻译的问题主要反映在三大方面:第一,机器翻译难以应对语言规则不统一的口语;第二,AI翻译难以结合文化语境进行理解,解析不出深层次的情感;第三,针对较长的段落,以及较为复杂的语境,往往会出现语法问题多,语句出错率高的毛病。

AI翻译要“地道”,技术倒不是关键

翻译界老将何恩培曾讲:“机器翻译一直被公认为人工智能领域最难的课题之一。而且语言背后的多元文化和复杂社会属性,注定了语言规则不可能规律化”。但是,中国有句老话:勤能补拙。对于AI翻译而言,最难的不是技术,而是“语境”理解,而AI翻译能力的级别高低又体现在这,集中体现了平台喂养语料的资源状况。AI翻译能否“地道”,取决于以下几点。

1、训练数据库的内容整体优质程度

2、开放平等的中外数据交流,或可加强AI的深度学习

3、需要准备大量的网络语及口语语料

除了诗词蕴含深厚文化底蕴外,网络语和口语是与一个地域的文化最为接近的语言形态,时下搜索引擎从被动搜索向主动的、基于用户兴趣的内容推荐引擎转型,这对于构建口语语料训练模型倒是一个不错的尝试。

虽然说,AI翻译能够精准识别“语境”是需要很长一段路要走,但是技术已经在进步,360翻译能够开始揣摩语句背后的情感与心思,对于日常交流来说是一个很好的开端。或许,我们将因此离“地球村”的梦想更进一步!

【完】

曾响铃

1钛媒体、品途商业评论等2016年度十大作者;

2 虎啸奖评委;

3 AI新媒体“智能相对论”创始人;

4 作家:【移动互联网+ 新常态下的商业机会】等畅销书作者;

5 《商界》《商界评论》《销售与市场》等近十家杂志撰稿人;

7 “脑艺人”(脑力手艺人)概念提出者,现演变为“自媒体”,成为一个行业。

8 现为“今日头条问答签约作者”、多家科技智能公司传播顾问;


分享到:


相關文章: