走訪阿里達摩院:用機器視覺做廣告設計 用機器翻譯推動國際電商

去年十月份,馬雲成立阿里巴巴達摩院,三年拿出1000億佈局前沿技術的研究,並對它提出三個要求,“活得要比阿里巴巴長”、“服務全世界至少20億人口”、“面向未來用科技解決未來的問題”。

走訪阿里達摩院:用機器視覺做廣告設計 用機器翻譯推動國際電商

在過去的9個月中,阿里達摩院也陸續傳出來自各方的技術大牛加盟;公佈了正在研發中的AI芯片Ali-NPU;研發出量子電路模擬器“太章”,率先實現81量子比特(40層)的模擬;應用在上海地鐵站的語音購票等消息,但整個達摩院(正如其名)還隱匿在雲霧中。

阿里達摩院第一次公開對外,則是近期在杭州舉辦的一場技術分享活動,現場達摩院來自不同部門的四位專家學者分享了他們的研究成果以及落地應用,智東西也作為首批媒體受邀參與其中。

可以看到,在達摩院的技術佈局中,既有應用於當下的語音識別、機器視覺、機器翻譯等技術,也有量子計算等中長期佈局未來的技術。而在應用場景中,達摩院的技術也廣泛的落地在阿里的業務之上,去解決實際問題,比如機器翻譯用於阿里的國際貿易,視覺生成用於淘寶廣告的自動生成等。

一、圍繞人、物、空間 推動機器視覺落地

阿里達摩院機器智能技術實驗室資深算法專家謝宣松分享了計算機視覺在產業中的應用,主要圍繞人(醫療視覺)、物(行業視覺)、空間(城市大腦)、設計(視覺生成)幾個維度來展開。謝宣松談到,圍繞人、物、空間來做一些機器視覺,目的是協助人提高效率。

走訪阿里達摩院:用機器視覺做廣告設計 用機器翻譯推動國際電商

相比城市大腦和醫療視覺,如何將AI技術落地場景眾多、問題更加複雜的產業,以及視覺生成技術如何提高人類效率,更加吸引智東西的關注。

行業視覺是產業落地的一個大領域,場景眾多,哪些場景能夠讓技術落地呢?謝宣松指出3種機器視覺可以落地的條件:

第一種是診斷內容肉眼可分辨,正常&故障樣本充足,對漏報有一定的容忍度。這種場景就很適合機器來做,比如對鐵路螺母是否鬆動的監測。第二種是人肉眼難以發現,可根據情況用機器視覺作為代替。第三種是故障樣本極少,但造成事故的結果又很嚴重,這時可以用機器視覺輔助人工檢測。

限定了邊界後,就可以尋找技術落地的場景了,比如阿里基於視頻分析,可以自動進行鋼圈安全監測,實測精度在95%以上;再比如通過目標檢測和行為分析,對豬的疫情等進行預警,前一段阿里雲用AI養豬種瓜,也是風靡互聯網圈。

通過行業場景的落地,謝宣松總結到,我們需要深入行業,花大力氣明確需求、定義問題;要重視數據,分析各個場景下數據的特點;要簡化問題,優先採用簡單有效的方案;並且要長期投入,不斷迭代優化方案。

視覺生成即通過AI技術,結合用戶、場景需求,生成圖像、視頻等內容,比如廣告圖像的生成與設計,廣告視頻的生成,遊戲圖像生成等,從而提高人類工作的效率。

阿里是以電商起家的,廣告需求廣泛存在於淘寶商戶中,尤其是雙十一這樣的購物節設計需求大量存在。阿里特意構建了設計知識圖譜,通過視覺生成來生成廣告效果圖。

走訪阿里達摩院:用機器視覺做廣告設計 用機器翻譯推動國際電商

其中最典型的應用就是魯班系統在淘寶中的應用。謝宣松談到,雙十一天貓、淘寶上大量的banner圖片,其中很大一部分都是系統自動自動生成的。比如去年雙十一用AI產圖2.5億張,累計產圖10億張。身為設計師的你看到這一結果是否會亞歷山大呢?

出了圖片的生成,謝宣松表示,視頻和圖形的內容自動/半自動生成是一個趨勢,也是另一個藍海。比如在一個電視劇場景中,AI可以識別視頻場景中的人物、對話、動作等,在識別場景後,就可以在適當的位置插入相關對象。

現場他展示了一張“天貓國際”的植入廣告,以及淘寶商品的視頻生成,當然廣告只是應用之一,只不過電商平臺需求量太大。

謝宣松還告訴智東西,視覺生成的實現是各種技術的綜合應用,會借用最基礎的識別分類能力,也會用到序列,同樣它會用到強化技術的能力,在象素生成和元素豐富上用一些概念能力,最後對整個系統有檢測過程,使它滿足用戶需求。

二、量子計算 中長期的佈局

時下火熱的一個概念就是量子計算,因為量子計算機一旦取得突破,在算力上就會遠遠高於經典計算機,從而帶來算力革命,但這一現象短期內很難發生。

正如阿里達摩院量子實驗室的量子科學家徐華所言,通用量子計算機發展前路漫漫,近期我們期待可以解決特定問題的量子芯片,以及針對量子系統進行模擬的量子芯片。

走訪阿里達摩院:用機器視覺做廣告設計 用機器翻譯推動國際電商

量子計算數據阿里中長期局部的一項重要技術,由於量子計算過於晦澀難懂,這次分享更多的在於科普,我們可以對幾個常見的概念做一個解釋:

量子計算,它是基於量子力學的基本原理(核心是量子疊加+量子糾纏),利用量子邏輯實現信息處理的計算技術,對應的機器就是量子計算機。

量子糾纏,對於一對或一群粒子而言,部分粒子的量子狀態以來其他粒子的狀態,而不能獨立的表述,則認為這一對或一群粒子處於量子糾纏。量子通信主要應用的就是量子糾纏,近期中國科大也宣稱率先實現了18量子比特糾纏。

量子霸權,這是一個經常被提及的概念,它是指對於某個特定的問題,量子計算機可以解決,但是經典計算機無法解決。2016年Google團隊在理論上提出,49個物理量子比特可以在隨機量子電路的輸出採樣這個特殊問題上實現量子霸權。

今年3月份,谷歌提出72個比特的芯片方案。而後5月份,阿里量子實驗室團隊基於阿里的計算能力,實現了81量子比特的模擬。但徐華總結到,目前的量子霸權象徵意義大於實際意義,因為本身解決不是通用計算問題,只能算是技術發展過程當中的一個個里程碑。

阿里量子計算的研究方向涉及物理層、系統層、應用層,希望提供全棧能力的解決方案,為客戶提供量子計算能力。

其中今年上半年推出的“太章”模擬器便是量子實驗室的一個代表項目。它是一個量子電路的經典模擬器,通過對模擬任務進行有效的分解,利用阿里強大的計算平臺,完成了之前超級計算機上做不到的模擬量子計算的任務,實現了對Google計劃取得 “量子霸權”硬件的模擬。

但現場徐華也講到,量子模擬器終歸受計算力所限。量子模擬需要繼續投入,幫助量子電路設計以及量子算法研究,但是從更長遠的研究來看,幾百個量子比特超級計算機是不能夠模擬的。

近期中國科大宣稱率先取得了18量子比特糾纏,智東西也就該成果的實質性意義與徐華溝通,他表示多個量子比特的糾纏是非常有意義的,量子糾纏有一個置信度,置信度是99%與99.99%差別非常大,如果置信度都很高,達到了99.99%以上,這就與實現邏輯比特比較接近了。比如50個邏輯比特組合起來,其算力基本可以達到現在超級計算機的計算水平。

三、機器翻譯 阿里國際化的生命線

機器翻譯是利用計算機將一種自然語言專為為另一轉自然語言的過程。這項技術已經有60年的歷史,但在最近30年才可以使用。

阿里達摩院機器智能技術實驗室研究員葛妮瑜分享了他們在機器翻譯技術中的探索與應用,她將機器翻譯稱為阿里國際化的生命線,因為阿里國際電商、即時通訊(釘釘)、旅遊(飛豬)等場景存在大量的翻譯需求。

與谷歌的通用神經機器翻譯不同的是,阿里的機器翻譯更加聚焦在國際電商、即時通訊、旅遊上,採用神經網絡機器翻譯(NMT)、統計機器翻譯(SMT)等多模型結合的方式進行翻譯,目前已覆蓋21種語言,48個翻譯方向。

葛妮瑜介紹,目前阿里機器翻譯服務100+業務場景,日均調用7.5億次,全年翻譯字符數超過120萬億,應用於電商平臺、物流、支付、雲計算、社交等。

在具體將機器翻譯落地方面,她講述了小語種機器翻譯和非標準漢語翻譯的具體案例。

以阿里巴巴國際站為例,30%用戶使用西班牙語、俄語、土耳其語等小語種;2017年前三季度,俄羅斯人在中國購物額佔海外網站消費總額的52%,同時全部訂單90%都下給了中國;但大約96%的賣家對小語種無能為力。

阿里為了匹配各個業務場景特點,融合多種不同技術,取長補短,進行場景翻譯的定製化。具體而言針對小語種進行語料抓取,建立電商知識庫,並搭建小語種與漢語之間的雙語平行語料庫,通過人工排序規則等,進行小語種機器翻譯。

走訪阿里達摩院:用機器視覺做廣告設計 用機器翻譯推動國際電商

另外一個就是非標準漢語機器翻譯的鬥爭,淘寶上商家為了最大化搜索效果,會輸入很多詞,但是不成句子,平均標題多達30個字,不自然無語法,對機器翻譯很有挑戰。

葛妮瑜團隊結合用戶搜索和成交產品,通過這些自動產生的大量準確語料,對商家冗長的標題進行優化簡寫,並通過模型不斷自動優化,從而實現商品信息的翻譯。

此外,她也介紹了圖片翻譯方面的一些探索。傳統的方法直接採用機器翻譯進行字符識別。而阿里第一步先對圖像進行識別,獲取內容描述後,再進行字符識別(OCR),通過OCR+圖像內容描述,共同進行機器翻譯,從而提升圖片內容的翻譯效果。

四、推行業語音識別

語音識別是一種常見的將語音轉換為文字的技術,目前各家做語音識別的公司都號稱通用語音識別準確率達到95%以上,但是在細分場景、特殊領域中,這一識別率會大大下降。

阿里達摩院機器智能技術實驗室高級算法專家雷鳴分享到,得益於更強大的計算能力,以及更多更真實的數據,語音識別正在快速發展,並且工業界正在成為創新的主流。

目前谷歌、微軟、百度等都採用通用識別的技術,與其不同的是,阿里則重點佈局了行業語音識別、IoT語音識別和新零售語音識別。

目前應用場景越來越複雜,對語音識別的要求越來越高,隨著模型越來越複雜,語音識別的效率越來越低;隨著數據體量越來越大,訓練時間越來越長,迭代速度越來越慢;並且模型越來越大,很難直接在IoT端進行部署。

阿里針對這一情況,在去年11月上線DFSMN模型,使語音識別的錯誤率相比之前模型下降20%,同時效率提升2倍,可在IoT設備端應用,並在今年6月將這項技術開源。

在具體應用方面,阿里的語音技術已經廣泛應用在家庭、車載、公共空間。比如家庭的智能音箱,上汽榮威RX5中的車載語音交互技術。

走訪阿里達摩院:用機器視覺做廣告設計 用機器翻譯推動國際電商

而在公共場景中,今年上半年阿里在上海地鐵站推出語音售票機,通過語音與視覺多模態組合,幫助乘客快速獲取車票。另外一個案例則是在今年的武漢雲棲大會上推出的語音點餐機,通過語音交互的方式高效獲取服務。

此外,阿里的語音技術也應用到法院庭審中,進行庭審信息的速記。據雷鳴介紹,阿里的智能庭審已經覆蓋了近300家法院,6000多個法庭,並應用到杭州互聯網法院中。

結語:以解決實際問題為導向的達摩院

通過阿里達摩院四位專家分享和與他們的溝通,我們感受最深的一點就是,達摩院的科研並非“空中樓閣”,而是切切實實的以解決實際問題為導向,目前其研究成果以逐漸落地阿里各個業務線。

此外,在技術落地解決實際問題的過程中,無論是語音識別、機器翻譯,還是機器視覺,阿里都在嘗試綜合應用多種技術來解決實際問題。

比如在於機器智能技術實驗室研究員葛妮瑜的溝通中,她也提到,針對自然語言處理(NLP)這個業界難題,他們也在結合漢語的實際情況,通過偏旁部首的研究來提高語義理解的效果。此外她也談到,用多模態的方式來研究NLP技術也是學界的一個方向。

走訪阿里達摩院:用機器視覺做廣告設計 用機器翻譯推動國際電商


分享到:


相關文章: