路漫漫其修遠兮,微軟和友商的「全雙工」之路

但可以發現與谷歌Duplex相比,小冰的語音自然度落了下風。在Google I/O大會現場,新一代谷歌語音助手不僅順利完成了電話預約理髮店的全過程,而且在交談中還出現了“嗯哼”這樣的語氣詞,引起了全場的尖叫。據瞭解,谷歌將在今年夏季與合作廠商發行這種搭載了“谷歌語音助手”帶顯示屏的音箱。

微軟和谷歌,不約而同地相繼選擇了全雙工的對話模式,讓人工智能和人類如通電話一般地進行雙向交流。相對地,以亞馬遜Alexa、蘋果Siri為代表的智能語音助手所使用的技術則是“半雙工”,這就像往兩個面對面交流的人手裡塞了兩隻對講機,讓他們通過對講機一問一答,並且,他們之間的對話只能圍繞一個確定的任務或問答進行。半雙工模式下人工智能也可以對答如流,但這並不代表半雙工是一種自然的人機交流方式。人永遠是提問者,而智能語音助手負責尋找答案,這也是很多人認為使用智能音箱很費勁的原因。

路漫漫其修遠兮,微軟和友商的“全雙工”之路

不過,同樣選擇了全雙工語音的微軟和谷歌,技術上的實現方式並不相同。

谷歌Duplex的核心是循環神經網絡,值得注意的,Duplex 的訓練數據來自一些具體的場景,例如預定餐廳,讓AI能夠充分地學習這些封閉場景音頻中的特徵、對話歷史、對話參數(比如要預定的服務,當前時間)等等。在系統運行中,輸入語音先經過自動語音識別系統(ASR)處理,生成的文本會與上下文數據以及其它輸入一起輸入 RNN 網絡,生成的應答文本再通過文本轉語音(TTS)系統讀出來。谷歌還花費了數月時間採集真人聲音,訓練出聲音和語調與真人幾乎一致的TTS語音系統。在語言理解、交互、時間控制、語音生成上的技術突破幫助谷歌Duplex獲得了相當真實自然的語音,也能夠出色地幫用戶完成某項具體的任務。

路漫漫其修遠兮,微軟和友商的“全雙工”之路

微軟小冰的學習電話交流的過程更為漫長。最初小冰的設定是以EQ為發展方向的對話式人工智能,過去幾年中,小冰在五個國家的IM平臺上和人類進行了大量的對話交流,積累了超過300億輪的超大規模對話數據,這讓生成模型得以應用。微軟此前表示,小冰之所以能做到區別於其他產品的長程語音,其中的關鍵之一便是小冰應用了生成模型,可以根據用戶的問題自創回應,區別於以往通過理解用戶的問題,尋找最合適的話作為回答的方式。此外,微軟還應用聲音場景識別、節奏控制器等技術增加小冰對話的真實感。這些技術讓小冰可以針對開放領域的任意話題展開對話,還能夠主動控制對話節奏,甚至引導對話方向。

路漫漫其修遠兮,微軟和友商的“全雙工”之路

谷歌在Google AI 博客中表示,在研究中,把Duplex 的功能限制在封閉的場景中是非常重要的,這些場景涵蓋的內容非常少,可以讓AI充分地學習這些場景中的對話。也就是說,谷歌Duplex良好的對話表現只能限定在某些特定的場景和具體的任務中,一旦對話偏離了場景和任務,Duplex就無法施展拳腳。

與谷歌不同的是,小冰的對話不侷限於某個場景或任務,這或許在某種程度上限制了她的語音自然度,但也讓她可以和人類談論任何一個話題,而其中那些看似無用的閒聊,可能經過幾輪對話之後引發出一個關鍵的任務需求。從技術實現來看,顯然開放領域的聊天似乎更困難一些,AI並沒有像人類那樣舉一反三的能力,若要讓AI學會聊一個話題,就必須對它進行這一話題的訓練。

微軟和谷歌相繼推出全雙工語音技術,似乎預示著人工智能業界的頂級公司正在朝同一個方向前行,要讓人機交互真正轉變為人機交流。但是,全雙工技術誰先誰後發佈,技術上誰長誰短,當下或許還沒有必要爭奪。不管是誰家的AI,距離產品真正的廣泛應用,還任重而道遠。


分享到:


相關文章: