Dorothy Kenny:《譯者與機器》

原文題目:The Translator and the Machine

文章編譯:韓林濤

關於作者:Dorothy Kenny博士是愛爾蘭都柏林城市大學應用語言及跨文化研究學院院長,主講翻譯技術、術語學和語料庫語言學。

原文地址:http://www.ciol.org.uk/translator-and-machine-dorothy-kenny

編譯本文緣由:

本文原為2017年初編譯,發佈在微博上,但是發現許多翻譯圈的朋友並未看到此文,所以決定再轉發到微信公眾號上。

我在編譯這篇文章之際,正在關注神經機器翻譯發展對翻譯行業的影響,這個過程中一方面通過閱讀相關文獻了解神經機器翻譯的原理,一方面查閱資料瞭解西方國家專家學者對於此問題的見解。

國內一些翻譯研究領域的專家在談及“AI”、“機器翻譯”等話題時少有在自己的文章中談及對統計機器翻譯原理、神經機器翻譯原理的理解,而他們的聲音又在行業會議上廣泛傳播,我認為他們對技術的理解偏差在一定程度上會影響青年學者和學子看待問題的角度。

愛爾蘭都柏林城市大學一直處於翻譯研究領域較為前沿的位置,Dorothy Kenny博士又是這個領域的“大牛級別人物”,所以我想把她的聲音傳到國內,讓更多人聽到西方世界就此持怎樣的觀點。

本文以編譯為主,盡最大可能脫離翻譯腔,提升譯文閱讀體驗,以傳遞文章信息為主要目的,如有翻譯錯誤還請海涵,如有重大理解錯誤請務必在評論中留言,我可以儘快修正。

Dorothy Kenny:《译者与机器》

Dorothy Kenny

愛爾蘭都柏林城市大學

如果沒有技術,難以想象當今的翻譯工作、翻譯職業會變成怎樣。如今全世界的翻譯工作都面臨巨大挑戰,譯者也在擔心與機器之間的競爭,不得不忍受質量很差的機器翻譯結果。與此同時,翻譯教師也在思考智能時代學生要學什麼。但不管怎樣,先驗知識告訴我們在人與技術的競爭中,教育是制勝的法寶。

要想應對挑戰,我們必須清楚知道翻譯行業發生了什麼。都柏林城市大學知名教授邁克爾·克羅寧(Michael Cronin)在其2013年的著作《數字時代的翻譯》中這樣寫道:“擔心要被替代的悲觀主義和執迷不悟的樂觀主義之下的雙重危險。”用這句話來描述當今人們對翻譯技術的態度再合適不過了。網絡烏托邦主義者認為未來的世界是沒有語言障礙的,甚至是在翻譯學界,很多人也預測機器翻譯會很快將譯者轉變為譯後編輯者。

人們不僅預測筆譯工作會全面自動化,技術專家們更希望看到口譯的自動化,就像科幻電影裡面那樣,而類似的口譯軟件已經有很多了。這些軟件雖然還存在很多技術問題,但有些開發者非常自信。

我們來預測一下未來

預測未來時要謹慎仔細,因為我們對未來的見解決定了我們今天如何行事。如果先進技術早晚都要淘汰譯者和譯員或者譯後編輯早晚都要替代翻譯,我們現在還需要努力培養譯者和譯員嗎?那麼譯後編輯這種工作未來又會怎樣?譯後編輯人員會喜歡他們的工作嗎?

在回答這些問題前,我想特別強調的是:雖然我對翻譯技術持有批判性的觀點,但是我並沒有站在翻譯技術的敵對面。

很多人都說譯者不喜歡“技術”,但芬蘭的兩位研究者最近研究發現:100位譯者受邀給技術工具寫一封短情書或分手信時,大多數人都選擇寫情書。在這個研究中,“技術工具”涵蓋各種類型的技術,比如搜索引擎、人體工學等,而其中跟譯者最有關係的技術是翻譯記憶和機器翻譯(尤其是統計機器翻譯技術)。

人們從20世紀90年代就開始使用翻譯記憶工具了。簡單來說,這類工具可以存儲譯者翻譯過的原文和對應譯文,即“翻譯記憶”。在翻譯新的內容時,如果新句子與工具中存儲的翻譯記憶原文部分一致或相似,翻譯記憶工具就會呈現翻譯記憶中原文對應的譯文,譯者可以使用或編輯譯文,也可以棄之不用。在這個過程中,人依然主導著整個翻譯工作。

統計機器翻譯技術則是全自動的,與翻譯記憶技術大不相同。在翻譯一句話時,計算機程序基於“翻譯概率模型”和“目標語言概率模型”來產生這句話最有可能的譯文。這個“翻譯概率模型”源於譯者已經翻譯過的原文和對應的譯文,計算機程序“學習”完之後即可翻譯新的句子。而“目標語言概率模型”則源於大量的單語的目標語言語料,計算機程序“學習”完之後即可產生符合目標語言規律的目標語譯文。所謂的“學習”是通過“訓練”完成的。“訓練”一結束,在隨後的“調優”階段,程序開發者會為每個模型分配最理想的權重,從而生成最好的譯文。

“調優”工作完成後,當使用程序翻譯新的文本時,程序會基於特定原文、基於“學習”到的模型、基於開發者分配給模型的權重,生成程序認為最正確的譯文。這個過程也叫做“解碼”。

像上面這樣用來做翻譯的統計機器翻譯系統由訓練、調優和解碼三部分組成,開發人員在為不同的模型尋找最優權重的過程中涉及大量的調優工作。

統計機器翻譯所用模型基於“N元文法模型”或“N元模型”,用於訓練統計機器翻譯引擎的數據中有包含1個單詞的字符串、包含2個單詞的字符串、包含3個單詞的字符串等,一般我們用字母“N”來代表字符串的字數,“N元”可以理解為指代的是“包含N個單詞的字符串”。在處理詞語之間不連續的依存關係時,統計機器翻譯技術往往比較吃力,比如在“She threw all her old clothes out.”這個句子中,“threw out”是個固定搭配,但是這個搭配中插入了“all her old clothers”,導致有依存關係的“threw”和“out”這兩個詞變得“不連續”了。統計機器翻譯之所以會有這樣的問題,主要原因就是模型構造時缺乏足夠的語境信息。另一個原因是,統計機器翻譯引擎在翻譯一個句子時,句子通過N元模型來“分解”。假如把“She threw all her old clothes out.”用二元模型來“分解”,變成“she threw”、“all her”、“old clothes”等片段,這些片段在翻譯時都是獨立處理的,忽略了句子的結構信息。

一些語言學家根據語法結構的特點,將世界語言分為孤立語、屈折語、黏著語和複綜語四大語言結構類型。簡單來說,漢語屬於“孤立語”,詞序比較嚴格(“我吃肉”和“肉吃我”改變了詞序意思就變了)、缺乏詞形變化、虛詞特別重要(詞與詞之間,虛詞變了關係就變了,比如“黨和國家”、“黨或國家”、“黨的國家”);英語、法語、德語等都屬於“屈折語”,詞性變化豐富(“eating”、“eated”、“eats”);土耳其語屬於黏著語,詞綴被“粘在”詞根上以產生不同的意思;複綜語包括印第安語、愛斯基摩語等,詞根的前前後後都有表達不同語法和詞義的部分,看不出是詞還是句子。

統計機器翻譯在處理黏著語和詞彙複雜高度屈折的語言效果不佳,黏著語和屈折語都有用於表示語法意義的附加部分,語法結構複雜,統計機器翻譯並沒有嚴格統一的方法來應對。除此之外,統計機器翻譯還有詞語漏譯的問題、一詞多譯的前後不一致問題等,有時一句話中出現的兩個一樣的詞都會有不一樣的譯法。譯後編輯人員就是來幫助統計機器翻譯來處理這些錯誤的。

譯後編輯人員所使用的“譯後編輯工作環境”其實就是傳統的翻譯記憶軟件,與譯者使用的工具是一樣的。翻譯記憶技術與機器翻譯技術是截然不同的兩種技術,但對於譯者而言,這兩種技術之間的界限似乎並不明顯,因為譯者在翻譯記憶軟件中做翻譯時,一旦沒有與原文匹配的翻譯記憶,譯者就會看到統計機器翻譯提供的自動翻譯結果。而且翻譯記憶和統計機器翻譯本就息息相關,譯者翻譯過程中產生的翻譯記憶經常用來訓練統計機器翻譯引擎。

前沿技術你追我趕

統計機器翻譯雖然有很多問題,但是在機器翻譯領域還是處於領先定位,不知道比之前的系統好到哪裡去。然而,從前年開始,神經機器翻譯便開始嶄露頭角。跟統計機器翻譯一樣,神經機器翻譯系統也能從之前翻譯過的原文和對應譯文中“學習”知識,但系統架構更簡單,也沒有使用上文提到的“N元模型”。神經機器翻譯系統使用了所謂的“人工神經網絡”,單詞、短語甚至整個句子都可以存儲在網絡中的單個“神經元節點”上,神經元節點之間又可以相互連接,並且藉助雙語的訓練數據強化彼此之間的關係。

當向神經機器翻譯系統輸入新的待譯原文時,系統每次先讀取一個原文單詞,然後開始輸出一個譯文單詞,再讀取下一個原文單詞,並輸出下一個譯文單詞,直到整個原文句子全部讀取完成。通過這樣的方式,神經機器翻譯系統可以處理整句話,而統計機器翻譯的N元模型則無法如此處理。與統計機器翻譯系統相比,神經機器翻譯系統可以更好地處理單詞的內部結構和單詞的形成規律、能更好地選擇所用詞彙、能更好地解決詞序問題(包括詞語之間不連續的依存關係),只不過訓練神經機器翻譯系統需要花費更長時間,耗費更多計算資源。

對於大公司來說,時間和計算資源都不是問題。2016年9月底,谷歌公司宣佈谷歌翻譯移動端和網頁端的中英機器翻譯服務全部由谷歌神經機器翻譯系統提供支持。即便如此,神經機器翻譯還是存在很多問題,比如:漏詞、錯譯(尤其是生僻字詞)、忽略上下文語境孤立翻譯某句話等。

對於譯後編輯人員而言,這樣的機器翻譯系統依然可用,只是我們還不知道如何基於神經機器翻譯系統來做譯後編輯。

對譯者/譯員培訓的啟示

回到我們之前問的幾個問題:“今天發生的事情對我們培訓未來的譯者和譯員有何影響?”“譯後編輯未來會是怎樣一種職業?”

要想回答第一個問題,我們需要了解一下“勞動經濟”。我們通常認為的是,常規工作容易被計算機替代,但是大數據出現之後(比如翻譯記憶技術涉及的大量雙語數據),機器學習技術、移動機器人技術引發了諸多革新,非程序化的認知型工作和精細化手工工作都更容易通過技術來實現全自動化了。

在2013年的一篇著名研究報告中,牛津大學研究員Carl Benedikt Frey和Michael Osborne曾預測美國47%的工作崗位可以實現自動化。有意思的是,筆譯和口譯工作不在此列,但屬於“中度危險”之列。研究人員認為,諸如筆譯和口譯這樣的工作需要高級別的社會認知和創造力,這恰恰是計算機技術的瓶頸,即便是在當今的大數據時代,計算機也很難處理這其中的問題。

要特別指出的是,美國勞工統計局認為“筆譯和口譯”是前景廣闊的職業,根據勞工統計局2013年的資料,筆譯和口譯工作在2014-2024這十年期間將會高速增長。這樣說來,譯者和譯員還不會那麼早就退出舞臺。

諸多市場調查結果顯示越來越多的語言服務提供商開始向客戶提供機器翻譯加譯後編輯的服務,但這些語言服務提供商通過提供這種服務賺了多少錢呢?調查結果裡並沒有十分確切的相關數據。美國著名語言行業調查機構卡門森斯顧問(Common Sense Advisory)公司2014年發佈的報告指出:機器翻譯譯後編輯服務的規模約為11億美元,看起來規模很大,但實際上只佔當年語言服務市場總額的3%。語言服務行業的主要收入來源還是傳統翻譯服務。

譯後編輯任務全面取代翻譯任務目前看起來是不切實際的,大學要繼續堅持開展譯者培訓教育。對於每一位譯者本身而言,簡歷中增添“譯後編輯”這項技能未嘗不可,但面對譯後編輯任務給出的低價,譯者肯定會有所顧忌。

我們來比較一下薪水

譯後編輯服務如何收費是的關鍵的問題。一家名為Translated.net的公司曾就“譯後編輯人員的合理薪水是多少”這個話題做了一個實驗。這家公司以買家的身份按不同的費率發佈了兩種類型的任務:一種普通翻譯任務,沒有機器翻譯輔助;另一種是在機器翻譯基礎上做譯後編輯。實驗結果是:至少75%的譯者選擇做譯後編輯。

對於英語到法語和英語到意大利語的翻譯任務,如果譯後編輯任務的費率是翻譯任務費率的73%,那麼75%的譯者會選擇做譯後編輯。換句話說,做譯後編輯任務時,這些譯者願意在翻譯任務費率的基礎上打個73折。而對於英語到德語的翻譯任務,譯後編輯的費率要比翻譯任務費率高10%。這樣算來,為譯後編輯任務統一定價是不可能的,而且實驗發現譯後編輯的生產力取決於兩項主要的指標:編輯所花費的時間和編輯所耗費的精力,前者是指譯後編輯人員在單位時間內平均處理的字數,後者是指譯後編輯人員所編輯的字數佔機器翻譯原始內容總字數的平均百分比。

這兩項指標均可以通過譯後編輯人員經常使用的翻譯軟件來輕鬆測量。當譯者在翻譯軟件中應用統計機器翻譯和翻譯記憶庫,並且使用鍵盤記錄工具來記錄按鍵敲擊信息時,通過這兩項指標便可以看出譯者或譯後編輯人員所從事的數據活動的“數據痕跡”。

現在已經有很多研究人員將鍵盤記錄工具、鼠標記錄工具、眼動儀等軟件或工具與翻譯軟件整合在一起來做實驗。比如歐盟資助了一個名叫“CASMACAT”的項目,試圖打造一個基於瀏覽器的交互式譯後編輯平臺。雖然這個的項目的目標是開發一個翻譯和譯後編輯平臺,為譯者提供更好的技術支持,但也許有一天這個項目會成為一系列譯者翻譯活動全面跟蹤記錄軟件的“始作俑者”。

簡而言之

但譯後編輯好在哪裡呢?要知道,許多實踐者並不看好譯後編輯。愛爾蘭都柏林市城市大學的兩位教授Joss Moorkens和Sharon O’Brien將譯後編輯形容為“一種涉及大量編輯工作的機械性任務,需要(譯後編輯人員)反反覆覆更改基本的語言錯誤”。他們在研究中還聽到這樣一種說法:“譯後編輯是機械性的,但是既然譯後編輯是機械性的,這種事情肯定可以讓機器來做。”今天的機器翻譯技術就是這樣讓人啼笑皆非。有時機器翻譯會將最機械性的工作留給人去做。這是典型的“技能退化”,原先從始至終只需要一個人做的複雜工作被分解成一系列簡單的任務,交給一些技能一般的人來完成。難怪許多譯者對譯後編輯工作毫不熱情。

譯後編輯工作讓譯者憂慮不已的另一原因是:譯後編輯人員經常得到的任務要求是“讓機器翻譯足夠好即可”。換句話說,許多譯者和譯後編輯人員拿到的任務是“不要盡全力去做翻譯”。

我們再來討論一下關於譯後編輯的那個預測:“機器翻譯會很快將譯者轉變為譯後編輯者”。我們之前從經濟角度分析了為什麼這個預測不靠譜,其實還有其他原因,比如:譯者其實完全可以掌控整個翻譯流程,而不需要受限於去完成像譯後編輯這種處於翻譯流程末端的單一任務,哪怕整個流程已經高度自動化了,譯者依然可以參與全流程的工作,而不會最終“淪為”譯後編輯人員。

再比如:大家回想一下會發現,統計機器翻譯和神經機器翻譯都需要雙語的訓練語料,那些已經多年使用翻譯記憶工具做翻譯的譯者手中也積累了大量訓練語料供他們自己做項目使用。在過去的10年裡,各類開源工具的出現使得這類譯者可以使用這些專屬於他們自己的語料用來訓練專屬於他們自己的、適合他們所做項目的統計機器翻譯引擎。

有些開源工具最初難以入手,比如“Moses”這個開源機器翻譯軟件,但在過去五年左右的時間裡,基於雲技術的統計機器翻譯服務讓用戶自己就能輕鬆定製專屬的統計機器翻譯引擎,比如一些大學就已經在譯者培訓中應用了其中一些定製化服務。雖然我們還沒有看到可供譯者使用的定製化神經機器翻譯服務問世,但只要有合適的硬件條件,軟件工程師們會開發這樣的服務的,針對譯者的相關培訓也會有的。一切皆有可能。

不管神經機器翻譯如何發展,至少譯者和譯員應該密切關注數據的所有權問題,應該關注技術工具會以怎樣的方式記錄他們的翻譯活動。搞機器翻譯的技術專家在過去十年裡通過互聯網“堂而皇之”挖掘了大量各種各樣的數據,然而,他們早晚得面對這裡面存在的法律問題、經濟問題和政治問題。今天的數字經濟還是處於“贏家通吃”的階段,成功的技術平臺最終都會變成壟斷者,壟斷之後就失去了競爭,於是技術服務的收費會更高,服務也會變差。大數據引發了所謂的“數字化顛覆”,比如大數據技術令很多行業發生翻天覆地的變化,然而數字化顛覆並非百利而無一害,一些國家的政府部門已經開始針對數字化顛覆的有害影響採取行動,其中歐盟的反應最為突出。

譯者和譯員最好要多多留意技術的發展。在未來數年之中,任何新技術的進步都會推動翻譯技術的發展,對於翻譯這個職業而言,譯者和譯員也許不斷進步,變得更加重要。


分享到:


相關文章: