突破小語種機器翻譯,阿里獲WMT國際大賽5項冠軍

在剛剛結束的WMT2018國際機器翻譯大賽上,阿里巴巴達摩院機器智能-NLP翻譯團隊打敗多個國外巨頭與研究機構,在所有提交的5項比賽中,全數獲得冠軍,成為此次比賽的最大贏家。這5個項目包括英文-中文翻譯、英文-俄羅斯語互譯、英文-土耳其語互譯,達摩院在這幾個項目的自動評測指標BLEU都位居第一。

突破小語種機器翻譯,阿里獲WMT國際大賽5項冠軍

圖片說明:達摩院獲得5個項目自動評測第一名

WMT全稱Workshop on Machine Translation,是國際公認的頂級機器翻譯賽事之一,也是各大科技公司與學術機構展示自身機器翻譯實力的平臺。2018年更吸引了包括翰霍普金斯大學、愛丁堡大學、亞琛工業大學、馬里蘭大學、微軟、騰訊等幾十個海內外團隊參與。

由達摩院機器智能技術實驗室資深算法專家陳博興博士帶領的達摩院機器翻譯團隊,在此次比賽中,基於業界最新的Transformer結構,進行了網絡結構的改進和對詞語位置信息的充分利用,全面改進了機器翻譯的性能。同時充分利用阿里的計算資源優勢,訓練數據和模型的規模都達到了行業最高紀錄。陳博興博士是國際權威的機器翻譯專家,曾任加拿大國家研究委員會研究員,擔任過NLP領域所有頂級會議和期刊的審稿人,並曾多次在各類機器翻譯評測中取得優異成績。

突破小語種機器翻譯,阿里獲WMT國際大賽5項冠軍

達摩院機器智能實驗室資深算法專家陳博興博士

此次達摩院不僅在競爭最激烈的英中翻譯上繼續保持優勢,值得一提的是,阿里還將機器翻譯的技術優勢延伸至俄語、土耳其語等多個語種。以往這些語言的機器翻譯技術,都由谷歌等國外公司與研究機構保持領先。

據透露,阿里巴巴的電商機器翻譯總量已經達到每日7.5億次。對於阿里的國際化發展而言,“語言”是一大門檻。以阿里巴巴國際站為例,七成買家以英語溝通,還有30%為小語種。而賣家端的調研數據顯示,大約96%的賣家對小語種無能為力。這一現狀,也催生了對機器翻譯的巨大需求。

阿里達摩院機器智能實驗室NLP首席科學家司羅表示:“機器翻譯的發展無法脫離用戶與場景,阿里機器翻譯的不斷進步,得益於在電商、新零售、物流等領域積累的豐富場景和數據。特別是在俄語、土耳其語、西班牙語的探索上,讓我們看到了機器翻譯的巨大商業價值與應用潛力。”

阿里的機器翻譯技術除了應用於電商全鏈路服務之外,還廣泛應用於菜鳥物流通關、阿里雲國際社區、飛豬旅行翻譯助手、釘釘社交口語翻譯等一系列產品。


分享到:


相關文章: