Dorothy Kenny:《译者与机器》

原文题目:The Translator and the Machine

文章编译:韩林涛

关于作者:Dorothy Kenny博士是爱尔兰都柏林城市大学应用语言及跨文化研究学院院长,主讲翻译技术、术语学和语料库语言学。

原文地址:http://www.ciol.org.uk/translator-and-machine-dorothy-kenny

编译本文缘由:

本文原为2017年初编译,发布在微博上,但是发现许多翻译圈的朋友并未看到此文,所以决定再转发到微信公众号上。

我在编译这篇文章之际,正在关注神经机器翻译发展对翻译行业的影响,这个过程中一方面通过阅读相关文献了解神经机器翻译的原理,一方面查阅资料了解西方国家专家学者对于此问题的见解。

国内一些翻译研究领域的专家在谈及“AI”、“机器翻译”等话题时少有在自己的文章中谈及对统计机器翻译原理、神经机器翻译原理的理解,而他们的声音又在行业会议上广泛传播,我认为他们对技术的理解偏差在一定程度上会影响青年学者和学子看待问题的角度。

爱尔兰都柏林城市大学一直处于翻译研究领域较为前沿的位置,Dorothy Kenny博士又是这个领域的“大牛级别人物”,所以我想把她的声音传到国内,让更多人听到西方世界就此持怎样的观点。

本文以编译为主,尽最大可能脱离翻译腔,提升译文阅读体验,以传递文章信息为主要目的,如有翻译错误还请海涵,如有重大理解错误请务必在评论中留言,我可以尽快修正。

Dorothy Kenny:《译者与机器》

Dorothy Kenny

爱尔兰都柏林城市大学

如果没有技术,难以想象当今的翻译工作、翻译职业会变成怎样。如今全世界的翻译工作都面临巨大挑战,译者也在担心与机器之间的竞争,不得不忍受质量很差的机器翻译结果。与此同时,翻译教师也在思考智能时代学生要学什么。但不管怎样,先验知识告诉我们在人与技术的竞争中,教育是制胜的法宝。

要想应对挑战,我们必须清楚知道翻译行业发生了什么。都柏林城市大学知名教授迈克尔·克罗宁(Michael Cronin)在其2013年的著作《数字时代的翻译》中这样写道:“担心要被替代的悲观主义和执迷不悟的乐观主义之下的双重危险。”用这句话来描述当今人们对翻译技术的态度再合适不过了。网络乌托邦主义者认为未来的世界是没有语言障碍的,甚至是在翻译学界,很多人也预测机器翻译会很快将译者转变为译后编辑者。

人们不仅预测笔译工作会全面自动化,技术专家们更希望看到口译的自动化,就像科幻电影里面那样,而类似的口译软件已经有很多了。这些软件虽然还存在很多技术问题,但有些开发者非常自信。

我们来预测一下未来

预测未来时要谨慎仔细,因为我们对未来的见解决定了我们今天如何行事。如果先进技术早晚都要淘汰译者和译员或者译后编辑早晚都要替代翻译,我们现在还需要努力培养译者和译员吗?那么译后编辑这种工作未来又会怎样?译后编辑人员会喜欢他们的工作吗?

在回答这些问题前,我想特别强调的是:虽然我对翻译技术持有批判性的观点,但是我并没有站在翻译技术的敌对面。

很多人都说译者不喜欢“技术”,但芬兰的两位研究者最近研究发现:100位译者受邀给技术工具写一封短情书或分手信时,大多数人都选择写情书。在这个研究中,“技术工具”涵盖各种类型的技术,比如搜索引擎、人体工学等,而其中跟译者最有关系的技术是翻译记忆和机器翻译(尤其是统计机器翻译技术)。

人们从20世纪90年代就开始使用翻译记忆工具了。简单来说,这类工具可以存储译者翻译过的原文和对应译文,即“翻译记忆”。在翻译新的内容时,如果新句子与工具中存储的翻译记忆原文部分一致或相似,翻译记忆工具就会呈现翻译记忆中原文对应的译文,译者可以使用或编辑译文,也可以弃之不用。在这个过程中,人依然主导着整个翻译工作。

统计机器翻译技术则是全自动的,与翻译记忆技术大不相同。在翻译一句话时,计算机程序基于“翻译概率模型”和“目标语言概率模型”来产生这句话最有可能的译文。这个“翻译概率模型”源于译者已经翻译过的原文和对应的译文,计算机程序“学习”完之后即可翻译新的句子。而“目标语言概率模型”则源于大量的单语的目标语言语料,计算机程序“学习”完之后即可产生符合目标语言规律的目标语译文。所谓的“学习”是通过“训练”完成的。“训练”一结束,在随后的“调优”阶段,程序开发者会为每个模型分配最理想的权重,从而生成最好的译文。

“调优”工作完成后,当使用程序翻译新的文本时,程序会基于特定原文、基于“学习”到的模型、基于开发者分配给模型的权重,生成程序认为最正确的译文。这个过程也叫做“解码”。

像上面这样用来做翻译的统计机器翻译系统由训练、调优和解码三部分组成,开发人员在为不同的模型寻找最优权重的过程中涉及大量的调优工作。

统计机器翻译所用模型基于“N元文法模型”或“N元模型”,用于训练统计机器翻译引擎的数据中有包含1个单词的字符串、包含2个单词的字符串、包含3个单词的字符串等,一般我们用字母“N”来代表字符串的字数,“N元”可以理解为指代的是“包含N个单词的字符串”。在处理词语之间不连续的依存关系时,统计机器翻译技术往往比较吃力,比如在“She threw all her old clothes out.”这个句子中,“threw out”是个固定搭配,但是这个搭配中插入了“all her old clothers”,导致有依存关系的“threw”和“out”这两个词变得“不连续”了。统计机器翻译之所以会有这样的问题,主要原因就是模型构造时缺乏足够的语境信息。另一个原因是,统计机器翻译引擎在翻译一个句子时,句子通过N元模型来“分解”。假如把“She threw all her old clothes out.”用二元模型来“分解”,变成“she threw”、“all her”、“old clothes”等片段,这些片段在翻译时都是独立处理的,忽略了句子的结构信息。

一些语言学家根据语法结构的特点,将世界语言分为孤立语、屈折语、黏着语和复综语四大语言结构类型。简单来说,汉语属于“孤立语”,词序比较严格(“我吃肉”和“肉吃我”改变了词序意思就变了)、缺乏词形变化、虚词特别重要(词与词之间,虚词变了关系就变了,比如“党和国家”、“党或国家”、“党的国家”);英语、法语、德语等都属于“屈折语”,词性变化丰富(“eating”、“eated”、“eats”);土耳其语属于黏着语,词缀被“粘在”词根上以产生不同的意思;复综语包括印第安语、爱斯基摩语等,词根的前前后后都有表达不同语法和词义的部分,看不出是词还是句子。

统计机器翻译在处理黏着语和词汇复杂高度屈折的语言效果不佳,黏着语和屈折语都有用于表示语法意义的附加部分,语法结构复杂,统计机器翻译并没有严格统一的方法来应对。除此之外,统计机器翻译还有词语漏译的问题、一词多译的前后不一致问题等,有时一句话中出现的两个一样的词都会有不一样的译法。译后编辑人员就是来帮助统计机器翻译来处理这些错误的。

译后编辑人员所使用的“译后编辑工作环境”其实就是传统的翻译记忆软件,与译者使用的工具是一样的。翻译记忆技术与机器翻译技术是截然不同的两种技术,但对于译者而言,这两种技术之间的界限似乎并不明显,因为译者在翻译记忆软件中做翻译时,一旦没有与原文匹配的翻译记忆,译者就会看到统计机器翻译提供的自动翻译结果。而且翻译记忆和统计机器翻译本就息息相关,译者翻译过程中产生的翻译记忆经常用来训练统计机器翻译引擎。

前沿技术你追我赶

统计机器翻译虽然有很多问题,但是在机器翻译领域还是处于领先定位,不知道比之前的系统好到哪里去。然而,从前年开始,神经机器翻译便开始崭露头角。跟统计机器翻译一样,神经机器翻译系统也能从之前翻译过的原文和对应译文中“学习”知识,但系统架构更简单,也没有使用上文提到的“N元模型”。神经机器翻译系统使用了所谓的“人工神经网络”,单词、短语甚至整个句子都可以存储在网络中的单个“神经元节点”上,神经元节点之间又可以相互连接,并且借助双语的训练数据强化彼此之间的关系。

当向神经机器翻译系统输入新的待译原文时,系统每次先读取一个原文单词,然后开始输出一个译文单词,再读取下一个原文单词,并输出下一个译文单词,直到整个原文句子全部读取完成。通过这样的方式,神经机器翻译系统可以处理整句话,而统计机器翻译的N元模型则无法如此处理。与统计机器翻译系统相比,神经机器翻译系统可以更好地处理单词的内部结构和单词的形成规律、能更好地选择所用词汇、能更好地解决词序问题(包括词语之间不连续的依存关系),只不过训练神经机器翻译系统需要花费更长时间,耗费更多计算资源。

对于大公司来说,时间和计算资源都不是问题。2016年9月底,谷歌公司宣布谷歌翻译移动端和网页端的中英机器翻译服务全部由谷歌神经机器翻译系统提供支持。即便如此,神经机器翻译还是存在很多问题,比如:漏词、错译(尤其是生僻字词)、忽略上下文语境孤立翻译某句话等。

对于译后编辑人员而言,这样的机器翻译系统依然可用,只是我们还不知道如何基于神经机器翻译系统来做译后编辑。

对译者/译员培训的启示

回到我们之前问的几个问题:“今天发生的事情对我们培训未来的译者和译员有何影响?”“译后编辑未来会是怎样一种职业?”

要想回答第一个问题,我们需要了解一下“劳动经济”。我们通常认为的是,常规工作容易被计算机替代,但是大数据出现之后(比如翻译记忆技术涉及的大量双语数据),机器学习技术、移动机器人技术引发了诸多革新,非程序化的认知型工作和精细化手工工作都更容易通过技术来实现全自动化了。

在2013年的一篇著名研究报告中,牛津大学研究员Carl Benedikt Frey和Michael Osborne曾预测美国47%的工作岗位可以实现自动化。有意思的是,笔译和口译工作不在此列,但属于“中度危险”之列。研究人员认为,诸如笔译和口译这样的工作需要高级别的社会认知和创造力,这恰恰是计算机技术的瓶颈,即便是在当今的大数据时代,计算机也很难处理这其中的问题。

要特别指出的是,美国劳工统计局认为“笔译和口译”是前景广阔的职业,根据劳工统计局2013年的资料,笔译和口译工作在2014-2024这十年期间将会高速增长。这样说来,译者和译员还不会那么早就退出舞台。

诸多市场调查结果显示越来越多的语言服务提供商开始向客户提供机器翻译加译后编辑的服务,但这些语言服务提供商通过提供这种服务赚了多少钱呢?调查结果里并没有十分确切的相关数据。美国著名语言行业调查机构卡门森斯顾问(Common Sense Advisory)公司2014年发布的报告指出:机器翻译译后编辑服务的规模约为11亿美元,看起来规模很大,但实际上只占当年语言服务市场总额的3%。语言服务行业的主要收入来源还是传统翻译服务。

译后编辑任务全面取代翻译任务目前看起来是不切实际的,大学要继续坚持开展译者培训教育。对于每一位译者本身而言,简历中增添“译后编辑”这项技能未尝不可,但面对译后编辑任务给出的低价,译者肯定会有所顾忌。

我们来比较一下薪水

译后编辑服务如何收费是的关键的问题。一家名为Translated.net的公司曾就“译后编辑人员的合理薪水是多少”这个话题做了一个实验。这家公司以买家的身份按不同的费率发布了两种类型的任务:一种普通翻译任务,没有机器翻译辅助;另一种是在机器翻译基础上做译后编辑。实验结果是:至少75%的译者选择做译后编辑。

对于英语到法语和英语到意大利语的翻译任务,如果译后编辑任务的费率是翻译任务费率的73%,那么75%的译者会选择做译后编辑。换句话说,做译后编辑任务时,这些译者愿意在翻译任务费率的基础上打个73折。而对于英语到德语的翻译任务,译后编辑的费率要比翻译任务费率高10%。这样算来,为译后编辑任务统一定价是不可能的,而且实验发现译后编辑的生产力取决于两项主要的指标:编辑所花费的时间和编辑所耗费的精力,前者是指译后编辑人员在单位时间内平均处理的字数,后者是指译后编辑人员所编辑的字数占机器翻译原始内容总字数的平均百分比。

这两项指标均可以通过译后编辑人员经常使用的翻译软件来轻松测量。当译者在翻译软件中应用统计机器翻译和翻译记忆库,并且使用键盘记录工具来记录按键敲击信息时,通过这两项指标便可以看出译者或译后编辑人员所从事的数据活动的“数据痕迹”。

现在已经有很多研究人员将键盘记录工具、鼠标记录工具、眼动仪等软件或工具与翻译软件整合在一起来做实验。比如欧盟资助了一个名叫“CASMACAT”的项目,试图打造一个基于浏览器的交互式译后编辑平台。虽然这个的项目的目标是开发一个翻译和译后编辑平台,为译者提供更好的技术支持,但也许有一天这个项目会成为一系列译者翻译活动全面跟踪记录软件的“始作俑者”。

简而言之

但译后编辑好在哪里呢?要知道,许多实践者并不看好译后编辑。爱尔兰都柏林市城市大学的两位教授Joss Moorkens和Sharon O’Brien将译后编辑形容为“一种涉及大量编辑工作的机械性任务,需要(译后编辑人员)反反复复更改基本的语言错误”。他们在研究中还听到这样一种说法:“译后编辑是机械性的,但是既然译后编辑是机械性的,这种事情肯定可以让机器来做。”今天的机器翻译技术就是这样让人啼笑皆非。有时机器翻译会将最机械性的工作留给人去做。这是典型的“技能退化”,原先从始至终只需要一个人做的复杂工作被分解成一系列简单的任务,交给一些技能一般的人来完成。难怪许多译者对译后编辑工作毫不热情。

译后编辑工作让译者忧虑不已的另一原因是:译后编辑人员经常得到的任务要求是“让机器翻译足够好即可”。换句话说,许多译者和译后编辑人员拿到的任务是“不要尽全力去做翻译”。

我们再来讨论一下关于译后编辑的那个预测:“机器翻译会很快将译者转变为译后编辑者”。我们之前从经济角度分析了为什么这个预测不靠谱,其实还有其他原因,比如:译者其实完全可以掌控整个翻译流程,而不需要受限于去完成像译后编辑这种处于翻译流程末端的单一任务,哪怕整个流程已经高度自动化了,译者依然可以参与全流程的工作,而不会最终“沦为”译后编辑人员。

再比如:大家回想一下会发现,统计机器翻译和神经机器翻译都需要双语的训练语料,那些已经多年使用翻译记忆工具做翻译的译者手中也积累了大量训练语料供他们自己做项目使用。在过去的10年里,各类开源工具的出现使得这类译者可以使用这些专属于他们自己的语料用来训练专属于他们自己的、适合他们所做项目的统计机器翻译引擎。

有些开源工具最初难以入手,比如“Moses”这个开源机器翻译软件,但在过去五年左右的时间里,基于云技术的统计机器翻译服务让用户自己就能轻松定制专属的统计机器翻译引擎,比如一些大学就已经在译者培训中应用了其中一些定制化服务。虽然我们还没有看到可供译者使用的定制化神经机器翻译服务问世,但只要有合适的硬件条件,软件工程师们会开发这样的服务的,针对译者的相关培训也会有的。一切皆有可能。

不管神经机器翻译如何发展,至少译者和译员应该密切关注数据的所有权问题,应该关注技术工具会以怎样的方式记录他们的翻译活动。搞机器翻译的技术专家在过去十年里通过互联网“堂而皇之”挖掘了大量各种各样的数据,然而,他们早晚得面对这里面存在的法律问题、经济问题和政治问题。今天的数字经济还是处于“赢家通吃”的阶段,成功的技术平台最终都会变成垄断者,垄断之后就失去了竞争,于是技术服务的收费会更高,服务也会变差。大数据引发了所谓的“数字化颠覆”,比如大数据技术令很多行业发生翻天覆地的变化,然而数字化颠覆并非百利而无一害,一些国家的政府部门已经开始针对数字化颠覆的有害影响采取行动,其中欧盟的反应最为突出。

译者和译员最好要多多留意技术的发展。在未来数年之中,任何新技术的进步都会推动翻译技术的发展,对于翻译这个职业而言,译者和译员也许不断进步,变得更加重要。


分享到:


相關文章: