能與用戶長時間溝通,還不會將天聊死的小冰,技術祕訣是什麼?

在眾多的語音助手中,微軟小冰是一個另類的存在,因為她不僅可以完成具體的任務,兼具IQ和EQ的她,還可以與人類用戶進行長時間溝通,且不會把天聊死。

此前,小冰進駐了小米米家Yeelight語音助手。在Yeelight中,小冰既可以控制家居設備,比如小米床頭燈,還能完成鬧鐘設定、天氣查詢、數學計算等任務,而與普通的語音助手相比,小冰會唱歌、講故事、做遊戲,在無需頻繁喚醒的情況下,能與用戶長時間的聊天。

3月28日,微軟召開小冰技術交流會,介紹了小冰背後的技術——全雙工語音交互技術。全雙工語音交互,則如同人與人之間的交互,能夠實時、雙向、連續的進行,使人機交互更加自然,更符合人類之間的交互特徵。

"全雙工代表著人工智能與人類自然交互的方法,以及其背後蘊含的內容服務、知識體系、知識圖譜之間的關聯,這一技術將使人工智能在未來發揮更加重要的作用。"微軟(亞洲)互聯網工程院副院長、微軟小冰全球負責人李笛說。

採用Session-oriented底層框架的全雙工語音交互

目前,一些智能語音助手,尤其是智能音箱,通常的功能是播放音樂、查詢天氣、購物、計算等,但無法與用戶進行長時間溝通。而目前的對話式人工智能,並不是全雙工,最多是半雙工,核心原因在於底層框架的限制。

李笛介紹,有關基礎框架的基本理念有兩種:Turn-oriented(面向單個任務)和Session-oriented(面向對話全程)。智能語音助手多采用Turn-oriented框架。在這樣的底層框架內,每一輪對話如同十字路口,中心部分就像指揮交通的民警,每當用戶輸入命令,民警就迅速將結果引導到相應的地方。

以天氣查詢為例。如果用戶查詢天氣,十字路口的民警就會將對話引導到提供天氣內容,然後提煉天氣內容,再以對話的形式輸送給用戶。如果用戶提出的問題,它無法引導到相應位置時,就會提供搜索協助。當此任務完成後,民警將對話拉回到十字路口的中心,一切歸零。下一個任務,再重複這樣的步驟。

"這樣的語音助手能很好地完成每個任務,但永遠無法離開十字路口的中心。"李笛說。

正是如此,這些智能語音助手無法很好地與人類用戶進行交流。智能音箱或智能手機助手,就只能扮演工具的角色,而無法完成更多的增值服務。

李笛認為,儘管採用Session-oriented的框架更復雜,但這是未來的趨勢。"Session-oriented就像河流,從一個turn走向另一個turn,這個turn可能跟任務有關,但在任務之後,會進入下一步交流,隨著交流則可能引發新的任務。再通過新的任務引發一些知識的瞭解,然後走下去,通過這樣的方式進行流轉。"

採用這種框架的好處在於,如果只關注單一任務的完成質量,關注點在於是否能把該任務完成,而看不到整體的變化,Session-oriented的框架則能避免這個問題,因此關注整個Session的時候,整個Session的質量會優於任何一個單一任務完成的質量。

小冰能夠通過全雙工語音交互技術,在前端表現得更自然,並與用戶進行長時間溝通,正是因為後端採用了Session-oriented的框架。

"在AI語音交互時代,真正重要的並不是具備100個或1000個功能,而是使用是否方便。如果使用不方便,即使再多的功能,用戶也只會停留在淺嘗輒止的程度。但如果人機交互很自然,哪怕功能很少,用戶也會經常使用,就像日常使用手機那樣。"微軟小冰全球研發負責人、首席架構師周力說。

採用Session-oriented框架的全雙工語音交互技術則是保障自然交互的基礎。

全雙工語音交互的四個技術突破

一年多以前,小冰團隊就開始研發全雙工語音交互技術。如今,在全雙工語音交互方面,小冰有了四大技術方面的突破。

技術一:使用預測模型和動態回應實現邊聽邊想

人和人的對話,並非一個人說完,另一個人再去傾聽、思考。小冰與用戶的交互過程中,也在努力實現這一點。

由此,小冰採用了邊聽邊想的技術,也就是說,在對話最初,小冰就會在雲端預測用戶將要談論的內容,如果跟事先預料的不同,就隨時調整思路,通過這樣的方式,能夠實現更快的響應速度和改口能力,做到用戶的語音剛落,小冰就快速回答,而她的回答也會不斷變化,從而給用戶提供不一樣的互動。

邊聽邊想的背後是預測模型,小冰對語音的識別不再是一條消息、一條消息的識別,而是一個字、一個字的識別,她每聽到一個消息,就會試圖去識別出目前可能的內容,同時預測用戶的整句話是什麼。

在預測模型基礎之上,再加入動態回應技術,通過此技術,交互過程中,不再是用戶輸入一條,小冰回應一條的回合制回答,而是根據預估的思考時間、複雜任務的完成時間,有選擇地將人工智能的對話拆解為多段,從而減少用戶感知的等待時間。

技術二:使用節奏控制器掌握談話節奏

邊聽邊想技術能夠給用戶提供不一樣的互動,但在人與人的對話中,說什麼固然重要,但何時說也同樣重要。因為,在人與人的對話過程中,並非一個人說一句,另外一個人回一句這樣的模式。而可能是一方傾訴,一方傾聽。

小冰如何處理這樣的過程?當對話陷入沉默,小冰又如何處理?是提供新內容,還是拋出新話題,抑或是強制維持原話題?

這些都涉及節奏控制,使用節奏控制器,小冰就能很好地適應這樣的場景。在與人類用戶交互的過程中,如果用戶是傾訴者,話更多,小冰就會將自己調整為傾聽者,使自己的話更少。

技術三:對聲音場景的理解

傳統意義上的語音識別是指通過一段語音,識別其中對應的文字,只要識別出其中的文字,任務就已完成。因此很多語音識別的技術,有一個指標是對應文字的準確率。

然而,人類在互動中,人的耳朵接收的信號,不僅要翻譯成文字,還要接收並判斷其他大量的信息。簡單來說,對方的性別、年齡是什麼,對方的情緒又如何。只有正確處理這些信息,才能有適當的對話。

同樣,小冰也需要處理這些問題。作為聊天機器人,小冰則通過語音進行這樣的識別。周力舉了一個例子,小冰在與一個用戶對話的過程中,誇讚用戶:姐姐你真漂亮。這說明小冰能夠區分用戶的性別。

小冰擁有講故事的能力,如果與小冰對話的是兒童,那她就不會講成人故事。而作為以EQ見長的聊天機器人,必須辨別用戶的情緒,才能正確處理如何對話以及對話的內容。"對高興的人或生氣的人,小冰要有不同的對話策略,做出不同的回答,這樣才能給用戶提供更好的體驗。"周力說。

而在家庭環境中,是什麼樣的人在說話,身份是什麼,在家庭中扮演什麼角色,他們是在打電話,還是互相聊天,還是在與小冰對話,以及小冰聽到的是電視裡的場景,還是真實的對話,等等。當小冰隨同Yeelight進駐到家庭環境中時,都需要小冰識別並進行理解。

技術四:生成模型

周力認為,對話機器人最開始的技術,是基於模塊和人工定義的QA系統,比如對話中含有某些關鍵字,或符合某一個regular expression(正則表達式),回答哪一句話,就去匹配相應的模塊。然而,通過這種方式只能將整句話作為消息進行處理。

四年前,小冰推出了第一代對話引擎,在業界率先使用大數據的搜索技術進行對話,如同搜索引擎的查找功能,小冰會根據用戶的談話內容,在互聯網中搜索人類相應的回答。在這樣的機制下,小冰每說過的一句話,實際上都是人類在互聯網上說過的話。而這樣的技術,也是小冰各種話題都能涉及的基礎。

周力表示,以搜索為基礎的技術同樣存在問題,那就是每一次搜索,無法搜索單個字詞,必須將整句話作為一條消息,進行搜索,才能達到相應的搜索結果。因此,這種方式無法做到動態調整,也很難做到邊聽邊想。

運用生成模型則不一樣,據周力介紹,儘管生成模型從目前產生的對話質量來看,與之前搜索技術產生的對話質量相差無幾,但生成模型本身更適於一種引流性交互的模式。

通過生成模型,可以實現更好的濃縮性,也可以和語音合成更好的場景,因為,第一個詞出現時,已經開始生成對應的語音音頻文件。

生成模型還可以幫助對整個場景的理解,並判斷對話何時結束,如果使用傳統模式,或通過搜索技術,就很難做出這樣的判斷,達到這樣的效果。

小冰的商業佈局:IoT和IM

據李笛介紹,擁有全雙工語音的小冰會重點佈局在IoT領域,Yeelight語音助手只是開始,在IoT之外,小冰已經佈局在眾多IM中,比如微信,QQ,微博等。

對於今天的小冰來說,她有三個身份,一是對話機器人。在這方面,小冰有很多解決方案,比如在QQ群中,作為群助手,除了交互之外,還能提供很多群所需要的功能,此外,全球小冰已經在14個平臺上。

通過EQ+IQ,小冰還能成為私人助理,完成具體的工作,比如在Yeelight語音助手中,小冰就可以提供開關燈、天氣查詢等服務。

與其他語音助手不同,小冰還能扮演內容提供者的角色,據李笛介紹,小冰播放的少兒故事已超過4萬小時,這些少兒故事的製作,如果不算研發投入,生產成本不到1000元,如果使用人工製作,花費則要將近千萬。

李笛表示,他們對小冰的期望,並非讓小冰依賴某一個實體,而是無處不在,無論是車上、家裡,甚至工作環境中、手機上、電腦中都有小冰的存在,一如電影《Her》的女主角。


分享到:


相關文章: