當AI翻譯能識別“語境”,我們的“地球村”夢想就不遠了

當AI翻譯能識別“語境”,我們的“地球村”夢想就不遠了

文|曾響鈴

來源|科技向令說

《聖經.舊約》裡記載著這樣一段故事:

當時人類聯合起來興建希望能通往天堂的高塔,為了阻止人類的計劃,上帝讓人類說不同語言,使人類相互之間不能溝通,計劃因此失敗,人類自此各散東西。

巴別塔典故,為世上出現不同語言和種族提供瞭解釋。儘管互聯網的出現,讓“地球村”的夢想在地理空間上不再是遙不可及,但語言理解與文化背景成為了全球溝通最大的障礙,又生生的讓夢想變得骨感起來。

好在,各大搜索引擎都推出了AI翻譯。

AI翻譯這條賽道上,巨頭們都繞不過的“坎”

AI翻譯作為垂直搜索產品,因其明朗的落地應用場景而備受巨頭們關注。

2016年,GNMT技術(谷歌的神經網絡機器翻譯技術,模仿人腦的神經思考模式)全面佈局於谷歌翻譯系統中,隨後,谷歌聲稱其AI翻譯的譯文質量誤差降低了55%-85%,並且將此技術廣泛應用於網頁翻譯與手機應用。

搜狗、阿里、騰訊等公司也都有部署NMT領域,推出多款基於神經網絡的在線翻譯和手機應用,在智能翻譯領域持續發力。360搜索自佔據國內搜索引擎行業二哥的位置後,同樣專注在AI領域與其他巨頭角力,上線了基於NMT的360翻譯,以期與去年上線的360英文搜索“雙劍合璧”。

但是我們會發現,不論是谷歌還是BAT,其智能翻譯從未能聲稱能替代人工翻譯,因為翻譯還必須考慮到到使用者的情感及文化背景。從2016年起至今的兩年時間裡,對海量語料的深度學習逐漸成為AI開發的必修課,也成了巨頭們佈局AI翻譯繞不過的“坎”。

正是在這樣的背景下,360翻譯的深度學習調度平臺卯足了勁,在深層技術和語料挖掘上下苦功夫。除了發揮360搜索在新聞資訊方面的既有優勢外,360的英文搜索還與微軟旗下的搜索引擎Bing開展技術合作,從而使得其AI翻譯背後坐擁海量中英網絡語料,讓其在理解語境方面更顯地道。另外,360翻譯採用的也是獨家研發的360NMT技術。

但這依然還只是個開始。

搜索平臺不約而同發力NMT,為的是哪般?

當AI翻譯能識別“語境”,我們的“地球村”夢想就不遠了

據統計表明,全球一共有73個國家,超10億人以英語為官方語言,而漢語則是世界使用人數最多的語言,因此,中英互譯本身的用戶基數市場就能引起巨頭們足夠的注意力了。為什麼要發力NMT,這得從AI翻譯人類語言的方式說起,包含三種:第一,基於規則的機器翻譯方法;第二,基於實例的機器翻譯方法;第三,基於統計的翻譯方法。SMT與NMT都屬於第三種,從語料自動學習翻譯模型,結合大數據通過評分輸出翻譯結果。

但是,SMT與NMT存在著顯著的差距。SMT採用的模式是通過平行語料進行統計分析,翻譯的準確性則與語料的豐富度呈明顯的正相關,但是存在著翻譯結果太過零散,片面生硬,語法語義混亂的劣勢。而模仿人類神經網絡構建模型,NMT是以一個句子為基本的處理單元,好處在於翻譯過程中有著更好的語感,能降低SMT翻譯的關於“形態、句法、詞序”等方面出錯的概率。因此,NMT在技術上恰巧可以有效彌補SMT的缺陷。而隨著語料不斷地加碼,AI翻譯的準確度也就高得多。

AI翻譯引進NMT技術,就能精準識別“語境”嗎?

第一組:獻上我的膝蓋。看看,最近這句網絡常用語各翻譯平臺的水平

谷歌:Offer my knee。

360:express my admiration。

搜狗:Give me my knee。

第二組:詩詞,選自杜甫的《登高》。因其詩中主要是以諸多意象組成的意境,看翻譯能否反饋這種情感。

《登高》原文摘選:

風急天高猿嘯哀,渚清沙白鳥飛回。

英語譯文:

當AI翻譯能識別“語境”,我們的“地球村”夢想就不遠了

當AI翻譯能識別“語境”,我們的“地球村”夢想就不遠了

當AI翻譯能識別“語境”,我們的“地球村”夢想就不遠了

當AI翻譯能識別“語境”,我們的“地球村”夢想就不遠了

第三組:新聞,選自紅網。語言簡練正式,但涉及的元素較多,對語法的要求性比較高。

原文:據長沙市住房和城鄉建設委員會網站顯示,2018年5月23日,長沙共計有兩個項目獲批預售證,均位於雨花區,分別為五礦萬境藍山和創元時代。

譯文:

當AI翻譯能識別“語境”,我們的“地球村”夢想就不遠了

當AI翻譯能識別“語境”,我們的“地球村”夢想就不遠了

當AI翻譯能識別“語境”,我們的“地球村”夢想就不遠了

當AI翻譯能識別“語境”,我們的“地球村”夢想就不遠了

因此,AI翻譯的問題主要反映在三大方面:第一,機器翻譯難以應對語言規則不統一的口語;第二,AI翻譯難以結合文化語境進行理解,解析不出深層次的情感;第三,針對較長的段落,以及較為複雜的語境,往往會出現語法問題多,語句出錯率高的毛病。

AI翻譯要“地道”,技術倒不是關鍵

翻譯界老將何恩培曾講:“機器翻譯一直被公認為人工智能領域最難的課題之一。而且語言背後的多元文化和複雜社會屬性,註定了語言規則不可能規律化”。但是,中國有句老話:勤能補拙。對於AI翻譯而言,最難的不是技術,而是“語境”理解,而AI翻譯能力的級別高低又體現在這,集中體現了平臺餵養語料的資源狀況。AI翻譯能否“地道”,取決於以下幾點。

1、訓練數據庫的內容整體優質程度

2、開放平等的中外數據交流,或可加強AI的深度學習

3、需要準備大量的網絡語及口語語料

除了詩詞蘊含深厚文化底蘊外,網絡語和口語是與一個地域的文化最為接近的語言形態,時下搜索引擎從被動搜索向主動的、基於用戶興趣的內容推薦引擎轉型,這對於構建口語語料訓練模型倒是一個不錯的嘗試。

雖然說,AI翻譯能夠精準識別“語境”是需要很長一段路要走,但是技術已經在進步,360翻譯能夠開始揣摩語句背後的情感與心思,對於日常交流來說是一個很好的開端。或許,我們將因此離“地球村”的夢想更進一步!

【完】

曾響鈴

1鈦媒體、品途商業評論等2016年度十大作者;

2 虎嘯獎評委;

3 AI新媒體“智能相對論”創始人;

4 作家:【移動互聯網+ 新常態下的商業機會】等暢銷書作者;

5 《商界》《商界評論》《銷售與市場》等近十家雜誌撰稿人;

7 “腦藝人”(腦力手藝人)概念提出者,現演變為“自媒體”,成為一個行業。

8 現為“今日頭條問答簽約作者”、多家科技智能公司傳播顧問;


分享到:


相關文章: