實時語音翻譯入圍十大年度技術,百度爲何成爲該領域的關鍵玩家?

春節假期剛過,《麻省理工科技評論》(MIT Technogly Review,以下簡稱「MIT TR」)就發佈了 2018 年「全球十大突破技術」,在這份面向未來的前沿技術榜單中,有一項技術離我們日常生活最近,那就是被稱之為「巴別魚耳塞」的實時語音翻譯技術。

實時語音翻譯入圍十大年度技術,百度為何成為該領域的關鍵玩家?

之所以用「巴別魚耳塞」來稱呼該技術,原因是因為在科幻經典小說《銀河系漫遊指南》裡,只需把一條黃色的巴別魚塞到耳朵裡,就可以聽到不同語言之間的實時翻譯。某種意義上說,「巴別魚耳塞」所代表的實時語音翻譯也肩負著人類建造全新「巴別塔」的希望。

而在 MIT TR 看來,隨著全球化的深入發展,不同語言的隔閡依然是困擾經濟、文化交流的巨大障礙。得益於以深度學習為代表的機器學習等算法的進步,以及大量低功耗芯片的出現,這個難題正在被破解。

MIT TR 將 Google 去年發佈的耳塞產品 Pixel Buds 作為代表產品,其中,MIT TR在其官方版本中,還特別將百度列為該領域的關鍵玩家,縱觀整份榜單,我們也能發現,百度也是這次唯一一個上榜的中國公司。而在針對中國發布的榜單內容中,為了避免以偏概全,也加入了來自中國本土的主要研究者,除百度外,還包括科大訊飛、騰訊、搜狗等眾多玩家。

實際上,上述這些公司在硬件領域也推出很多雷同的產品,比如翻譯機,如百度發佈的共享 Wi-Fi 翻譯機、科大訊飛的曉譯翻譯機、搜狗也有自己的翻譯寶和翻譯筆。表面看起來,這些產品功能類似,甚至樣子也沒有較大區分,但這些表象背後,卻也是各家公司基礎翻譯技術研發和產品落地理唸的角逐。

如果把「實時語音翻譯」這個名詞拆開理解,或許能更好理解這個領域的難點,這裡包括三個層面:翻譯、語音和實時。

1. 機器翻譯-人工智能的終極目標之一

機器翻譯涉及計算機、語言學、信息論等多學科,因其巨大的科學挑戰,被譽為人工智能皇冠上的明珠,翻譯之於人工智能的歷史可謂源遠流長。

早在1946年第一臺計算機發明之初,就有科學家提出利用計算機自動進行語言翻譯的設想。經歷70多年的發展,機器翻譯先後湧現出多種方法,如基於人工撰寫語言規則的方法、基於大量數據學習的統計方法等,機器翻譯的質量也逐步得到提高。然而,由於語言的複雜性和靈活性,機器翻譯的質量與人們的期望值還有相當大的差距。

近幾年,隨著深度學習技術被應用到翻譯領域,翻譯質量大幅躍升,百度、谷歌、微軟等巨頭公司相繼發佈了一系列基於最新人工智能技術的翻譯系統和產品。早在2015年,百度發佈神經網絡翻譯(NMT)系統,為機器翻譯領域帶來了跨時代的技術突破,也成為世界上最先把深度學習應用到大規模線上翻譯系統的公司。2016 年,Google 也在自家的翻譯產品里加入了神經機器翻譯系統(GNMT)。近1年以來,各家公司紛紛跟進,發佈基於神經網絡的翻譯系統。

眾所周知,神經網絡翻譯的核心支撐是深度學習技術,深度學習需要海量數據,而數據恰好是百度、谷歌等互聯網公司的天然優勢。以百度為例,作為中文互聯網領域的重要入口,具有海量的中文網頁數據,這就給自然語言處理以及機器翻譯提供了海量的訓練語料。而且,百度自 2015 年就有相關產品的佈局,這種先發優勢直接帶來的就是用戶形成的巨大慣性。考慮到百度龐大的用戶群體,每天數以億計的翻譯次數反過來又會形成訓練機器的新數據,從而形成了一個正向反饋,其結果就是,用戶越用發現這個翻譯系統也越聰明,也會更喜歡使用。

而神經網絡翻譯系統最大的意義在於,在翻譯的過程中,神經網絡翻譯會先評估整個句子的意思,然後再進行翻譯,這讓翻譯的結果更加符合這個句子的語意,讓譯文更加流暢自然。2017年的百度世界大會上,百度宣佈機器翻譯系統在大學英語六級翻譯考試中得到13.6分(滿分15分)。谷歌公開發表的文章中也顯示,基於神經網絡的翻譯系統錯誤率降低80%以上。機器翻譯的質量和體驗獲得全方位的提升,同時也越來越得到用戶的廣泛認可。

2. 當語音遇到翻譯

語音是人們日常交流最自然的一種表達方式。和翻譯一樣,語音也是一個「古老」的人工智能難題,但是語音翻譯與文字翻譯相比,難度更大,這是因為機器不僅要能“譯得準”,首先還要“聽得清”,即AI要準確判斷出說話者所說。

所以,語音翻譯並不是簡單的語音+翻譯,簡單的級聯語音識別的錯誤會被後續的翻譯放大,甚至一個字的識別錯誤都會導致整個句子的翻譯錯誤。達成令人滿意的翻譯效果需妥善解決識別容錯、智能斷句與標點等一系列技術難題,這就要求一個公司具備全面的AI能力,進行語音、翻譯的深度融合與技術創新,而業界具備這種能力的公司,屈指可數。

值得一提的是,百度在深度語音識別系統上有著不俗的技術積累,2016 年還被 MIT TR 列為年度「十大突破技術」。而在 2017 年百度世界大會中,李彥宏演講時,現場不僅有實時的語音識別,更有實時翻譯。李彥宏現場表示,目前百度在會場級的語音識別準確率已經達到了97%,完全可以替代一般的速記工作。

3. 實時性 – 高效交流的必然要求

第三,也是最難的一點,就是「實時」。真正意義上的實時翻譯,就像科幻電影裡那樣,兩個操著不同語言的人可以在幾乎零延遲的翻譯場景裡實現對話,就像同聲傳譯一樣,但實現真正意義上的實時,目前還面臨較大的技術挑戰。

實際上,語音翻譯硬件的出發點就是希望能夠逐步實現實時翻譯,它最吸引人的地方也恰恰在於它的便捷性和高效性——隨身攜帶、實時翻譯。但為什麼實時翻譯很難真正實現?這是因為,對句子識別的完整性與語音翻譯的實時性之間存在一個矛盾:輸入句子的信息越完整,翻譯結果越準確,而這就需要等待語音識別返回一個完整的句子,才能進行翻譯。目前市面上的翻譯機還無法達到完全實時的翻譯,所採取的策略都是等待語音識別完一個完整的句子後,再進行翻譯。這顯然是為了提高語音翻譯的準確率。隨著技術的發展,相信這一難題會很快得到解決。

出境旅遊是翻譯機的一個重要應用場景,不同的是,在此場景下除了翻譯需求,人們還面臨網絡問題。目前,大部分的翻譯機本身只集成了語音識別和翻譯功能,使用需要額外連接網絡。

以 Pixel Buds 為例,Google 雖然為這個耳機配備了人工智能助手—— Google Assitant,但依然還需要通過Pixel 手機的網絡功能實現和雲端的數據交換,這意味著,在沒有網絡的條件下,Pixel Buds 的翻譯功能是不可用的。再比如國內一些公司,如搜狗2018年發佈的旅行翻譯寶,儘管能夠擺脫網絡限制,實現一定程度的離線翻譯,但卻是以犧牲語音翻譯質量為前提的。在網絡日趨發達的今天,離線這個功能似乎有些雞肋,更何況高達1500元的售價,並不具備示範意義。

2017年,百度發佈了一款共享WiFi翻譯機,這款翻譯機有兩個重要特點,一是將共享 Wi-Fi 和翻譯結合在一起,同時解決了上網和翻譯兩大痛點。據瞭解,百度共享 WiFi 翻譯機自帶流量,覆蓋80多個地區的網絡,可同時支持5臺設備的WiFi接入。這意味著,用戶不用擔心網絡問題,在享受網絡的同時,快速實現不同語言的翻譯需求。

二是能夠自動判斷用戶所說的語言,實現一鍵翻譯。其他的翻譯產品需要用戶使用兩個按鍵來區分語言,操作複雜,容易混淆。百度翻譯機採用先進的人工智能技術,實現自動語種判斷,用戶無需來回切換語種,提高了交流的效率。

4. 從技術落地到人人愛用的產品

正如上文所言,實時語音翻譯技術的眾多技術難點正在被努力突破,其技術落地的速度也不斷加快。根據《科技日報》的報道,僅在 2017 年,翻譯類的硬件產品發佈數量已經超過了過去 30 年的總和。

但擺在實時語音翻譯面前的難題還有很多。比如,小語種的覆蓋難題,目前絕大多數的翻譯硬件,都侷限在幾個大語種範圍內。這也是百度目前正在努力的方向,據瞭解,百度提出的「多任務學習」的機器翻譯模型,能夠有效解決多語言翻譯難題,被紐約時報評為“突破性技術(break through)”。

另一個則是用戶體驗的難題,儘管我們在 2017 年看到了如此眾多的翻譯硬件,但就像 MIT TR 對於 Google Pixel Buds 的評價,「雖然現有硬件並不那麼好用,但 Pixel Buds 卻展示了實時翻譯的前景」。這個全人類的願景還需要更多廠商去努力實現。

第三,則是一個怎麼也繞不開的話題,那就是如何讓實時語音翻譯,或者更大概念上的翻譯,成為一種平臺化的資源,這既是各個公司產品商業化的考量,也是人工智能普惠化的終極目的。

在這個方面,百度和 Google 都走到了行業前列。早在 2015年,百度就開放了翻譯平臺,針對中小開發者,提供每月一定量級的免費翻譯額度。如今,百度翻譯開放平臺已全新升級,包括通用翻譯API、定製化翻譯API、拍照翻譯SDK、語音翻譯SDK四項服務。而 Google 則將翻譯 API 集成到 Google Cloud 裡,按需付費。所以百度被列為該項技術的關鍵玩家,可謂實至名歸。

某種意義上說,我們現在也正處在建造「巴別塔」的前夜。算法的優化、芯片的發展以及數據的增長,都在賦予人類新的能力,作為普通人的我們,也逐漸享受到語音交互、自然語言處理以及機器翻譯帶來的人工智能紅利。百度去年曾提出一個口號:「Bring AI To Life」,這是我們活在當下的一大幸運,也是對重建「巴別塔」的再一次宣告。


分享到:


相關文章: