詳解網易有道AI戰略,智能硬體、教育、辦公三大解決方案

近兩年,互聯網巨頭BAT的人工智能戰略格外受人關注,百度全面押注AI以來,在2017年的下半年,百度股價三個月上漲了40%。除了BAT這三家之外,搜狗、網易等二梯隊互聯網大公司的AI戰略也已經逐步清晰。

9月6日下午,網易有道在北京舉辦“2018網易有道AI開放日暨智能翻譯硬件二代發佈會”,向媒開發者、合作伙伴、媒體記者介紹了網易有道AI戰略和AI核心能力、有道智雲在教育/辦公/智能硬件三大行業解決方案,同時還發布AI硬件新產品:有道翻譯王2.0 Pro。

有道AI戰略

2011年,網易開始佈局AI,由浙江大學計算機博士李曉燕牽頭,在內部儲備相關技術和團隊,為遊戲、郵箱、音樂、雲服務和電商等業務提供AI支持。不過,當時的AI還沒有因深度學習而突飛猛進,AI還無法上升到集團戰略層面。

節點性的事件發生在2017年。網易AI團隊升級為人工智能事業部,開始真正為集團其他業務賦能。網易也劃分出AI戰略的三條線:AI平臺、基於計算機視覺的網易AR、語音識別和NLP方向上的語音交互業務。

網易AR在網易AI戰略中佔據很重要的地位,與網易遊戲、電商的發展緊密聯繫;以翻譯為核心的網易有道在語音識別、NLP方向則有天然的基因。

網易有道近年來在教育領域發展很好,AI技術的加持也進一步加快其步伐。網易有道是目前國內用戶量最大的互聯網教育品牌之一,服務中國互聯網8億用戶, 有道詞典用戶在2018年初剛剛突破7億大關。旗下擁有包括網易有道詞典、有道精品課、有道翻譯官、有道雲筆記等大眾教育的工具類和在線學習類產品。

2018年4月17日,網易有道宣佈完成首次戰略融資,此輪融資由慕華投資領投,君聯資本參投,投後估值達11億美元,躋身中國互聯網獨角獸俱樂部。至此,網易已經擁有三家獨立融資的品牌:網易雲音樂、網易味央、網易有道。網易有道CEO周楓告訴雷鋒網,由於網易佔據網易有道超過50%的股票,網易有道依然是網易旗下子公司。

網易有道作為獨立子公司,網易的AI佈局與有道還是有很大區別。有道的核心AI能力有:神經網絡翻譯、OCR識別、語音識別和語音合成,都是由有道團隊獨立研發。周楓告訴雷鋒網:有道現在業務端定位就是A和教育兩個關鍵戰略,教育目前在有道的營收中已經佔到超過一半的份額,其次是廣告。有道的規模不是最大的,因此在業務上得有明確定位,結合自己的能力、資產和行業趨勢,AI和教育是最適合有道的,且這兩個方面也有所交叉,AI對教育能有極大提升。

此外有道做AI還有幾大特點。第一個特點是,同時注重C端和B端,C端就是網易有道的詞典、翻譯、課程等產品,B端則是通過有道智雲輸出;第二個特點就是,同樣重視雲端和終端AI能力的發展

,除了智雲之外,有道也開發出了很多離線的終端AI能力,例如AR實景翻譯完全依靠端側;第三個特點,有道重視實際的場景和領域,例如現在大力發展的政企、教育、辦公等三個場景。

有道翻譯王2.0 Pro

详解网易有道AI战略,智能硬件、教育、办公三大解决方案

我們先來看看這次發佈會上的全新硬件——有道翻譯王 2.0 Pro,這款翻譯機集成了有到啊的多項AI能力。

我們先回顧一下網易有道翻譯技術發展歷史:

2007年12月網易上線有道詞典PC版,將詞典軟件帶入互聯網時代;2008年8月推出自主研發的機器翻譯引擎有道翻譯,採用SMT統計翻譯技術;2009年1月,網易上線有道詞典手機版;2012年11月,推出有道翻譯官;2013年的3月,有道詞典用戶突破3億;2015年4月,有道詞典用戶量破了5億,年底破7億;2016年3月,推出有道詞典海外版本U—Dictionary;2017年4月,有道神經網絡翻譯YNMT上線,使得過去一年網易在翻譯技術上的進步,超過了過去十年的總和;2017年的10月,推出了有道的第一款智能硬件產品——有道翻譯蛋,正式進入硬件領域。據介紹,翻譯蛋目前銷售量已經超過10萬。

據雷鋒網瞭解,2017年底,智能翻譯機成為繼智能音箱之後的又一大AI硬件行業熱點,科大訊飛、搜狗、網易都發布了自己的翻譯機產品,有幾點原因:首先,神經網絡翻譯技術使得機器翻譯水平大幅度提升,能夠更好地解決線下對話問題,而過去由於手機硬件限制,我們無法在移動設備上運行深度學習模型,翻譯機成為外出剛需,此外,語音合成技術也促進了實時語音翻譯,更加實用。

2017年10月,網易推出有道翻譯蛋,帶觸屏、支持27種語言在線翻譯,不支持離線翻譯,價格638元。今天,有道發佈翻譯智能硬件“有道翻譯王 2.0 Pro”, 網易有道副總裁劉韌磊介紹到,翻譯王可以支持中英日韓四國語言離線翻譯;43種語言在線互譯;7種語言離線拍照翻譯;21種語言在線拍照翻譯;全文收錄《牛津高階英漢雙節詞典(第7版)》;搭載語音助手。售價1688元。

详解网易有道AI战略,智能硬件、教育、办公三大解决方案

與上一代有道翻譯蛋相比,重大更新亮點在於引入自研離線翻譯技術、拍照翻譯功能,也能支持更多的語言。

在雷鋒網看來,離線翻譯確實是翻譯王的一大特點。由於翻譯機使用頻率最高的場景應該是出境遊,而出境的網絡流量費用高昂,很多地方網絡信號差,離線翻譯成為一大剛需。但是離線翻譯技術對硬件和軟件要求都很高,目前,眾多翻譯機中,只有科大訊飛的曉譯翻譯機、搜狗翻譯寶以及網易網易王三款硬件能支持離線翻譯。

拍照翻譯是第二大特點,需要基於計算機視覺的OCR識別技術,還需要較大的屏幕來顯示圖像,目前科大訊飛、搜狗、網易三家也都在做。據媒體測評,訊飛翻譯機2.0的屏幕小拍不全,容納信息有限,需要進行多次翻頁等繁瑣的操作,搜狗翻譯寶3.1寸高清屏幕體驗更好,網易翻譯寶此次也採用了3寸的高清屏。

“翻譯王”還有一個特點是加入了語音助手,以“你好,有道”喚醒,支持語音指令(可進行音量、屏幕亮度調節),語音交互問答;可詢問古詩(500首中小學生常用古詩詞、2萬首唐詩宋詞古詩集)、百科(數百萬百科詞條)、翻譯結果、天氣(可查詢當天和未來2天的天氣)、匯率(可查詢實時匯率,交易時以銀行櫃檯成交價為準)、計算結果。

據介紹,翻譯王的語音助手的語音識別、語音合成、對話系統都是有道自研。在在智能音箱、智能家居大火的現在,把語音助手放進翻譯機可以算是其最初的嘗試,或許有道還會有更多的佈局。

有道核心AI能力

详解网易有道AI战略,智能硬件、教育、办公三大解决方案

網易有道首席科學家段亦濤分享了有道AI核心能力。

有道AI技術的圍繞著語言這一條主線展開,解決各個場景下的語言處理問題。第一個技術,神經網絡翻譯。在機器翻譯這個領域,有道已經耕耘十年,經歷了從SMT統計翻譯模型到神經網絡翻譯模型的迭代,目前有道的神經網絡翻譯模型支持7種語音的中文互譯,還支持英文與印尼、阿拉伯語等語言的互譯。據陳,有道詞典海外版U-Dictionary已經超越其他競爭對手,在印度市場排行第一。

在英譯中和中譯英的對比評測中,有道神經網絡翻譯的BLEU值(國際通用的衡量翻譯質量的指標)超過了其他兩款國外翻譯引擎。(在這裡網易並沒指明這兩家翻譯引擎據雷鋒網瞭解,谷歌和微軟都比網易更推出神經網絡翻譯技術)。

第二個技術,基於OCR的圖像翻譯方案。OCR技術是指在照片裡面來找到文字區域,同時把文字識別出來,這個技術可以和翻譯技術一起來用,也可以作為一個獨立的技術用在其他場合,比如文檔的電子化。

整個鏈條除了OCR還有別的技術,在文字識別後,還需要對圖像中的文字進行組行、組段,乃至於組篇章,從語義、語言的角度組織起來,然後再傳送到翻譯引擎裡進行翻譯。最後,還會根據原圖的排版,對翻譯結果進行排版和渲染。

OCR識別技術的難點在於一些複雜的場景,例如圖像角度傾斜、手寫識別、混合多語種等,目前有道OCR技術能處理19種語言。

详解网易有道AI战略,智能硬件、教育、办公三大解决方案

第三個技術是語音識別、語言合成和對話系統。翻譯王就用到了這些語音技術,能夠進行漢語、英語、日語、漢語、葡萄牙等五種語言的語音識別和合成。有道也做了一些特色的項目,例如用機器學習用戶上傳的錄音,只需十分鐘的錄音文件,就能合成相似的音色;以及離線語音功能。

段亦濤告訴雷鋒網,網易語音團隊成立才一年多,去年推出有道智雲時還沒有語音能力。有道成立語音團隊,自己做語音的原因是因為,,雖然現在市面上可以買到語音技術,但是卻買不到離線語音技術,教育、翻譯這樣的終端產品需要離線技術,“沒有離線技術是會被別人卡脖子的”,因此有道就投入了語音這塊。

在2017年,科大訊飛已經靠著語音成為市值逼近千億的巨頭,BAT也都已經佈局語音技術多年,有道這個時候進入顯然有些晚。但是在周楓看來,有道做AI能夠立刻找到大的場景作為驗證過程,比純做toB的公司迭代週期和最後出來的產品的第一版第二版產品的品質要好很多,總體上有道是比較垂直的業務形態。

目前,神經網絡翻譯、OCR、語音技術等都已經通過有道智雲開放給合作伙伴,在有道智雲上線一年後,機器翻譯服務了超過700億字符的請求,我們OCR服務的120億的次數請求,開發者數量達到4萬。

有道智雲三大解決方案

详解网易有道AI战略,智能硬件、教育、办公三大解决方案

網易高級副總裁、網易有道CEO周楓在開場致辭中指出,新十年的紅利將是人工智能技術,金融科技和物聯網(IoT)。談及有道的AI佈局,周楓認為智能硬件是互聯網面向消費新場景的設備延伸,有道智雲則是面向合作伙伴的整合優化服務,強化這兩部分能夠使有道AI產品矩陣的佈局和擴充更為穩健。

有道AI技術總監林輝介紹了有道智雲面向手機和智能硬件的解決方案。

首先是機器翻譯,有道智雲提供拍照翻譯、原圖翻譯、AR翻譯三種功能。在智能交互方面,有道雲提供語音助手和有道魔鏡(智能識別物體)。

此外,以上功能也能離線處理。為了實現這個效果,有道做了,模型定點化、模型量化、在CPU方面做了指令級別的優化、自研的離線運算庫、與芯片廠商合作優化,做到了識別50個字只需要50毫秒,如果字數比較多的話,每增加50個字只要增加15毫秒。

這些能力都以高級API的形式存在於有道智雲上,開發者可以只花幾分鐘時間就將這些能力集成到自己的應用中。目前,已經有多家手機廠商與有道智雲合作,使用了這些解決方案,包括OPPO,華為、小米、三星、360等。

接下來,有道AI技術總監黃瑾分享了有道智雲在辦公場景下的解決方案。首先是文檔翻譯,通過OCR技術,有道能識別文檔結構、圖片、表格、公式,10頁4000詞的英文論文PDF,1分鐘內就能完成翻譯。第二個是文檔數字化,有道提供了一鍵導入圖片、自動識別、文本審校、語義理解、文檔終校等支持,實現中文標準印刷體99.9%識別率。

黃瑾介紹到,很多政府、企業都有將文檔轉化為電子版的需求,但是挑戰是必須百分之百地正確,能識別特殊符號、表格等,不能出錯。這一點,有道做了很多細化的工作來滿足需求。

最後,有道AI技術總監林會傑分享了有道智雲在教育上的解決方案。在教育場景,有道提出了三套解決方案:面向數字化內容的解決方案、面向教育過程的網絡化解決方案,以及教育方法的智能化解決方案。

详解网易有道AI战略,智能硬件、教育、办公三大解决方案

在數字化內容方面,有道OCR技術可以幫助紙質教育材料實現數字化,比如將試題收入電子庫;在教育過程方面,有道推出了智能答題板、作業批改系統、AR拍照自動判題;在教育方法智能化方面,有道提出了英語語音跟讀、口語評分、知識圖譜等方案。以上方案也都可以通過有道智雲接入。

详解网易有道AI战略,智能硬件、教育、办公三大解决方案

AI+教育是近兩年的一大風口,雷鋒網也盤點了入局教育領域的大公司和創業公司。面對AI+教育領域的激烈競爭,周楓談到:“在大型互聯網公司中,網易很早就開始做教育。百度也做了很多年,但是他們做的是平臺,網易是在認真扣內容。做教育多年,我們感受到,做教育和做平臺、做電商不一樣,我們需要去讓學生獲得更好的智慧教育。

很多公司看中了教育這塊大蛋糕,認為家長很樂意為了教育掏錢,所以都湧進來。但是由於市場競爭是在是太激烈,教育產品的獲客成本會特別高,也就不那麼賺錢了,網易有道的一個優勢是,我們的流量和客戶就在那裡,就可以省掉營銷費用。”

有道以自己在教育、翻譯上的積累切入AI,雖然來得晚,但是他們的發展卻很快速。但是雷鋒網也注意到,有道目前的AI產品,少有原創,翻譯機、AI口語測評、AI批改試卷等都是行業內已經有的模式,網易如何在這些產品上破局呢?

關於這一點,周楓談到,“回到我們4月份說的一句話,我們希望做教育領域最懂AI的公司,同樣也是希望做AI公司裡最懂教育的公司。所以看的是綜合能力,不管是從相關的團隊的規模上、投入上,以及說做相關技術的時間和數據積累等等方面,綜合來看,我們還是比較有信心的。具體到某一個上面的話,有些事情可能我們做的會晚一些,但是總體上是長跑,所以我們還是挺有信心,說每一個領域都能做很好。

比如說搜題,搜題用到的是OCR技術,傳統的文字識別部分是比較拼湊型的,他做的是找類似項而不是真的把裡面東西認出來,那我們現在發現,我們鑽研之後能夠實際做真正意義的識別,這裡面一個典型例子就是公式,我們發現國內幾乎沒有廠商做公式識別,後來找到評估之後發現根本不能用,後來我們自己解決了公式識別的問題。”

段亦濤也談到,“語音識別是一個例子,我們語音識別起步比較晚,但是我們很快就追上來。像剛才那幾個例子,包括作文批改,這裡面很多東西真的要說透的話,它依賴於很多自然語音處理的積累,比如我們做作文批改項目時候,我們大量應用到我們翻譯技術,這裡面有翻譯模型在裡面。我們會在瞭解清楚問題本質後,把這些問題拆解成我們現有技術可以解決的方式。很多事情還是看積累是不是足夠深厚,是不是對這個問題有比較好的理解。”

小結

去年7月,網易有道第一次召開AI開發日活動,上線了“有道智雲”平臺,發佈了OCR和神經網絡翻譯技術。當時,網易有道副總裁金磊向雷鋒網介紹,有道技術接口每天被請求1.5億次,其中有1億次來自於第三方,而非有道自己的產品。基於這樣的契機,有道正式上線了面向企業的“有道智雲”平臺,將機器翻譯和 OCR 技術全部集成在平臺上,供給第三方廠商使用。

今年的AI開放日活動,有道智雲新增了語音識別、語音合成、對話系統等AI能力;有道智雲提出了智能硬件、辦公、教育三大場景解決方案;有道還發布了新一代翻譯機——有道翻譯王2.0 Pro。

同時,在今年的發佈會我們還了解到,有道將以AI和教育作為兩大關鍵戰略,在以AI能力賦能自己的C端產品的同時,也通過有道智雲將AI技術能力開放給合作伙伴。


分享到:


相關文章: