自然語言處理暢談之機器翻譯技術發展歷程

目前各個國家和民族的不同種類信息不斷融會貫通,不同語言之間的翻譯已經成為當今社會基本需求之一。小到出國旅遊翻譯或者資料翻譯,大到基於互聯網的跨境電商、跨境旅遊、外貿、O2O、海外租車、金融服務等國際化業務實施,都面臨著一個無法避免的問題:多國語言的翻譯。針對網絡上海量和動態變化的多語言信息,如何進行低成本和快速實時翻譯,從而實現有效交流?基於人工翻譯來解決這個難題是不可想象的,因為翻譯人員的人力成本越來越高,所以唯一的解決方法就是充分利用機器翻譯技術,提供智能自動翻譯服務。

機器翻譯技術可以將一種語言文字自動地轉換為另外一種語言文字,應該是解決翻譯問題的終極技術手段之一。機器翻譯研究最早始於1949年,美國洛克菲勒基金會自然科學部門的負責人沃倫·韋弗(Warren Weaver)發表了一份以《翻譯》為題的備忘錄,由此翻開了歷史性一頁。據統計,世界上大約有6000多種語言,但很多語言已經接近絕跡。利用計算機軟件實現不同語言之間的智能翻譯,成為了人工智能領域的一個夢想。也有人稱機器翻譯是自然語言處理領域的皇冠明珠,只有解決了語言分析的所有難題,才能真正攻破機器翻譯這座堡壘。


自然語言處理暢談之機器翻譯技術發展歷程


近十幾年來,機器翻譯研究及產業化在各國政府和產業界的大力支持下,取得了快速進展我國政府把包括機器翻譯技術在內的自然語言理解研究列入國家中長期科技發展規劃綱要中。美國政府在2009年把自動翻譯列為最具影響力的未來十大技術之一。美國國防部所主導的“2049”計劃和BOLT項目都將機器翻譯作為現代信息技術中的制高點進行重點攻堅。產業界如谷歌和百度等互聯網巨頭也將其作為在線服務的重要入口。據報道,谷歌翻譯每天為全球兩億多個用戶提供服務,每天翻譯次數達10億次,每天翻譯處理的文字數量相當於100萬冊圖書,超過了全世界的專業翻譯人員一年能夠翻譯的文字規模。機器翻譯具有重要的理論研究和產業應用價值。

早期的研究人員將機器翻譯技術看作加密、解密過程,利用雙語詞典作為密碼本,實現基於雙語詞典的簡單轉換翻譯,由於低估了自然語言本身的詞彙翻譯和結構轉換歧義性等困難,應用十分有限。隨著計算機軟硬件發展和計算語言學理論方法的日趨成熟,機器翻譯研究不斷取得突破性進展。從基於規則的翻譯技術,到基於實例、基於模板、基於翻譯記憶等翻譯技術,最終發展到目前主流的統計機器翻譯技術。

統計機器翻譯技術的最大優點在於,只需要提供一定規模(如百萬級乃至千萬級)的雙語句對庫,翻譯系統自動學習3-5天就可完成系統構建,無須任何人工干預。另外,從翻譯性能來看,基於大規模雙語數據自動訓練學習的統計機器翻譯系統性能表現更優。統計機器翻譯技術本質上是數據驅動的方法,利用機器學習方法從大規模雙語句對庫中自動學習訓練翻譯模型和語言模型,基本上不需要人工干預;如果用於訓練學習的計算機硬件運算資源越豐富,所需要的訓練學習時間就越少。

自20世紀80年代末提出IBM模型以來,統計機器翻譯技術逐步從基於單詞的方法、基於短語的方法發展到基於句法的方法。與基於詞/短語的翻譯方法不同,句法翻譯模型可以利用句法分析結果來指導翻譯過程。從理論上說,由於句法樹可以更加全面深入地表示句子的結構信息,句法翻譯模型可以提供更多的語言學依據來輔助結構翻譯和調序。然而在大多數實際翻譯任務中,這種理論優勢並未得到充分體現,譯文質量沒有顯著提高,反倒是句法翻譯模型複雜度和計算量均呈指數級增長。相比之下,跨語言語義的差異性要遠小於句法的差異性,即語義比句法具有更強的跨語言等價性。目前統計機器翻譯研究缺乏對語義等深層次語言學信息的有效使用,基於短語和基於句法的方法本質上都沒有利用語義知識來進行翻譯建模。很早以前就有研究者嘗試在統計機器翻譯中引入語義信息,但是由於語義框架的不完善及語義分析系統的性能瓶頸,基於語義的機器翻譯面臨很大挑戰,併成為目前的研究熱點。

一個統計機器翻譯系統構建框架包括雙語句對自動詞對齊、翻譯規則抽取、翻譯特徵打分、語言模型和調序模型訓練、翻譯特徵權重調優、翻譯解碼和翻譯後處理等幾部分。機器翻譯系統的開發和調優實際上是非常複雜的,從目前國際機器翻譯技術評測研究報告上看,通常採用增加訓練數據、訓練更強大的語言模型、擴大解碼搜索空間和使用更加複雜的模型及參數等四種方法,來改善統計機器翻譯系統性能。很多與之有關的研究成果對機器翻譯特別是對統計機器近些年的發展起著至關重要的推動作用。


分享到:


相關文章: