驍龍AI與有道攜手 利用實時翻譯架起世界溝通的橋樑

科技讓我們能夠隨時通過手機聯繫到身處世界各地的人。它打破了距離與時間的限制,無論是朋友、家人,還是商務夥伴,我們都能輕鬆自如地和他們建立聯繫。然而,直到現在,語言仍是我們面對面溝通的一個障礙。

驍龍AI與有道攜手 利用實時翻譯架起世界溝通的橋樑

儘管我們能夠向全球各地發送消息、撥打電話或是視頻聊天,但仍不能進行跨語言的流暢交談。現在,國內領先的智能學習公司——有道,正利用AI來解決這一問題。過去一年半的時間,Qualcomm持續與有道開展合作,通過終端側的實時翻譯來幫助人們打破語言的限制、輕鬆自如地進行溝通。

想象一下:你與海外客戶進行電話會議。雖然你說的是普通話,但海外客戶能夠實時地聽到標準的英文翻譯,這種無縫、流暢的實時翻譯十分令人驚歎。但是,這樣的實時翻譯對技術要求頗高,是此前技術無法實現的。Qualcomm驍龍8655G移動平臺和其集成的第五代Qualcomm人工智能引擎AIEngine,其AI性能是前代平臺的2倍,能夠支持實時離線翻譯的實現。事實上,在2019年12月舉行的驍龍技術峰會期間,我們已經在現場展示過部分用例。

實時翻譯是如何實現的

翻譯功能通常由CPU執行,但對於特定應用而言,CPU作為一個通用的性能模塊,不能提供足夠強大或實用的性能支持。Qualcomm驍龍與有道合作,把翻譯移植到更合適的處理模塊——QualcommHexagonDSP上,以實現端到端的時延和性能優化。這樣做的優勢在於,能夠有效降低功耗並加大算力,以提高翻譯準確性,為實時翻譯帶來更好的體驗。

無論用戶正在進行傳統的語音通話還是網絡通話,當用戶的語音進入驍龍865終端的麥克風並傳入驍龍865集成的第五代QualcommAI Engine時,有道實時翻譯就會馬上開始運行。在翻譯的過程中,驍龍865會喚醒Qualcomm傳感器中樞(SensingHub)來消除噪聲和回聲,然後啟動Hexagon處理器進行神經網絡處理,這主要包括以下三個階段:

1、自動語音識別(ASR)——以英文來舉例,通過在Hexagon處理器上運行卷積神經網絡(CNN),用戶的英文語音可以被轉錄為英文文字。

2、神經網絡機器翻譯(NMT)——接下來,英文文字能夠通過神經網絡機器翻譯轉換成中文文字。這不僅僅是逐字翻譯,而是結合語句結構的翻譯。Hexagon處理器能夠助力有道算法更好的理解兩種語言之間語句結構的區別,以及詞語在不同語境中可能具有的不同含義。

3、文字轉語音——最後,神經網絡機器翻譯出的中文文字會轉化為普通話語音。

值得關注的是,上述處理過程全部都能夠在終端側實時地進行,這讓跨語言交談真正變得輕鬆自如。

實時翻譯的未來

目前,有道實時翻譯技術支持包括普通話、英文在內的多種語言。未來,該技術甚至可以扮演口譯員的角色,在人們面對面交談時進行翻譯。

在5G技術的支持下,實時翻譯將會以更具沉浸感的方式呈現在人們的生活中。例如,由新一代無線通信和驍龍5G終端賦能的超低時延技術能夠在視頻電話中支持面部識別,這帶來的不僅僅只是聲音同步,而是逼真的口型同步,對方就連看起來也像是正在使用與用戶相同的語言進行對話。

QualcommTechnologies希望幫助全世界進行連接、計算和溝通。這也是為什麼我們很高興能夠與有道合作,並打造能夠幫助人們克服語言障礙的技術。我們很榮幸可以與合作伙伴一起豐富用戶體驗,共同架起全世界溝通的橋樑。

Qualcomm驍龍、Qualcomm人工智能引擎AIEngine、QualcommHexagon和Qualcomm傳感器中樞是QualcommTechnologies, Inc.和/或其子公司的產品。


分享到:


相關文章: