人工智能浪潮下的語音交互——VUI設計(基礎篇)

摘要:本文內容一部分來源於阿里設計師王一行翻譯的《語音用戶界面設計》一書,一部分為工作中所學習的。感興趣的可以去買書看看。VUI的第一個時期20世紀50年代,貝爾實驗室建立了一個單人語音...

本文內容一部分來源於阿里設計師王一行翻譯的《語音用戶界面設計》一書,一部分為工作中所學習的。感興趣的可以去買書看看。

VUI的第一個時期

20世紀50年代,貝爾實驗室建立了一個單人語音數字識別系統。這些早期系統的詞彙量非常少,在實驗室之外並沒有什麼用戶。20世紀六七十年代,關於語音數字系統的這項研究仍在不斷拓展可識別的詞彙,並且至力於實現“連續語音”的識別(不需要在詞與詞之間暫停)。

20世紀90年代,IVR交互式語音應答系統出現(我們打10086客服出現的語音服務系統)。它可以通過電話線路理解人們的話,並執行相應任務。在21世紀初期,IVR系統成為了主流,任何人都可以通過一個普通的電話和語音進行股票的詢價、機票預定、銀行轉賬、處方藥品預定、本地電影排片查詢以及收聽交通信息等。

人工智能浪潮下的語音交互——VUI設計(基礎篇)

VUI的第二個時期

我們現在所處的時期被稱為VUI的第二個時期。像Siri、Google new、和Cortana這類集成了視覺和語音信息的app,以及Amazon Echo、Google Home這類純語音的設備逐漸成為主流。Google報告稱其搜索請求中有20%是通過語音完成。

當下百度退出新的產品簡單搜索,乾脆將語音作為搜索入口,有興趣的同學可以去試試。

人工智能浪潮下的語音交互——VUI設計(基礎篇)

下面會給大家介紹一些VUI的基本術語

喚醒詞設定

國內的四大音箱品牌,如小愛同學(小米)、小度小度(百度)、天貓精靈(阿里)、小藝小藝(華為)

那麼為什麼要設定喚醒詞呢?

一個原因是遵從現實的人際交往關係,比如在學校宿舍,我讓你幫我帶東西,我會說小明,回來時幫我帶桶泡麵。而小明同學識別到“小明”,就知道你在呼喚他,是對他在說話。也會針對性地進行回答。

第二個原因你的設備在工作中是一直處於傾聽狀態的,如果音箱在用戶非使用時間記錄用戶的話,還將聽到的語音傳到雲端,這樣就侵犯了用戶的隱私。所以音箱需要一個喚醒詞來喚醒音箱。(音箱在通電狀態下,喚醒詞是做本地處理的,不管是否連接網絡都能響應,響應速度也更及時。)

至於怎麼命名喚醒詞,此處不做說明。

人工智能浪潮下的語音交互——VUI設計(基礎篇)

超時

一般喚醒音箱後,音箱的傾聽時間為7~10秒,各個廠家的都不同。當用戶的輸入超出限定世界,一般採取的做法是識別時限內的內容,進行相應的回答。

延遲

延遲發生的場景很難去預估,通常由以下幾個原因產生的,但實際上未知的更多

1. 糟糕的連接性能

2. 系統處理進程

3. 數據庫訪問

當你去查詢一個球隊的比賽時,並且想知道他現在的積分,下一輪的對手是誰,你應該就會知道這需要進行雲端數據查詢,需要一定的時間,這個時候音箱上的呼吸燈就會告訴你他正在為你工作中。

但有時候,延遲會比較長(一般在0~10秒內),如果延遲會達到一個節點,比如說7秒,這個時候音箱如果給一個響應,說:請稍等,正在為您查詢,那麼用戶的耐心是否會變長,消除焦慮呢?

人工智能浪潮下的語音交互——VUI設計(基礎篇)

消歧

很多時候用戶只會提供執行命令所需要的部分信息,而沒有提供所有細節。比如對音箱說,“打電話”,但這個時候音箱並不知道打給誰。但如果你說打電話給張三丰,這個時候音箱會發起呼叫來執行當前指令。

再舉個例子,比如說查詢天氣,這個時候音箱是不知道你查詢的是什麼地方的天氣,但可以根據當前的地理位置來判斷,告訴你當地的天氣。

消歧就是明確各種指令,然後讓音箱能順利的理解並執行命令。一般消歧會涉及到多輪對話,此處不做具體說明。

人工智能浪潮下的語音交互——VUI設計(基礎篇)

下面從一段對話來說明顯性確認、置信度、N-Best列表、多輪對話

1. 你問:Hey google 勇⼠隊獲勝了嗎?

2. 助手:是的 上週⽇對陣鵜鶘,勇⼠隊贏了118:92

3. 你問:很好,他們下⼀場⽐賽是什麼時候

4. 助手:勇⼠的下⼀場⽐賽是今天下午7:30,他們將再打鵜鶘隊

5. 你問:當我回家時 提醒我找到我的凱⽂杜蘭特球⾐

6. 助手:當然 當你回家時我會提醒你

隱性確認

隱性確認策略就是將答案連同原始問題的一部分一同回覆給用戶,讓用戶知道知道他的話接收到了,但不需要他們確認。

示例:

1. 你問:他們的下一場比賽是什麼時候嗎?

2. 助手:勇⼠的下⼀場⽐賽是今天下午7:30,他們將再打鵜鶘隊 。

從這,可以看出它知道“他們”指的是勇⼠,能根據上下⽂理解這些代詞的意思。且在答覆中從將勇士反饋給用戶,讓用戶知道“他”知道“他們”指的是勇士。

置信度低的顯現確認

如果置信度不高,Google可能這樣回覆:你是問勇士的下一場比賽是什麼時候嗎?

1. 你問:他們的下一場比賽是什麼時候嗎?

2. 助手:你是問勇士的下一場比賽是什麼時候嗎?

置信度高

1. 你問:他們的下一場比賽是什麼時候嗎?

2. 助手:他們下⼀場⽐賽是今天下午7:30,將再打鵜鶘隊 。

這種對話更加自然沒有痕跡,但對置信度的要求也更高,當前只能對簡單的對話進行這種回答。對於場景的要求較高,最好是單一的,變量小的。

多輪對話

很顯然,當前對話示例是多輪對話。多輪對話很明顯的一個特徵就是無須重複喚醒助手,能夠持續的對話。助手也能根據上下文來理解並給出相應的回答,就像人一樣,更加自然的對話。(當前各大廠商的助手只能在某單一場景進行多輪對話)

N-Best列表

其實助手每一次回覆都會從用戶說的話返回個N-Best列表,然後從中選取一個置信度最高的進行回覆,而持續性對話,在於N-Best列表關聯著向下文而生成,形成了一個對話場景。(VUI設計師在設計的時候,每個對話都會提供多個TTS對助手進行訓練)

對話式標識(對話禮儀,如:謝謝、好的、⼲得好等)

當⽤戶在對話中使⽤了⼀些基本的禮儀後,系統也會給予相應的回覆,顯的更加人性化,⽤戶的參與度也會更⾼。

比如你對助手說謝謝,助手會回答不客氣。很有意思的對話。

TTS

TTS簡單的來說就是語音播報,即助手說出來的話。

聲紋識別

現在一些廠商已經加入了聲紋識別技術,根據聲音來識別用戶,從而根據用戶的習慣進行不同的回答,而不是千篇一律的回答。

ASR

ASR(自動語音識別引擎),ASR就是能將用戶語音轉換成文本的技術。

語音打斷

和字面的意思一樣,就是在助手播報過程中,用戶可以打斷,根據自己的意願進行選擇。可以想象一下我們在打10086客服是,是不是經常打斷,提前選擇自己需要的服務。

語料泛化

語料泛化指,設計師提供一些語料後(3-5個),再進行細化。直到覆蓋到全部場景。比如查詢天氣就有多種預料,可以是查看天氣、看看天氣、天氣咋樣,進一步還可以指定時間與地點。

垂類

垂類可以理解為類別,舉例說明:比如鬧鐘和天氣就是兩個垂類,用戶在設定鬧鐘的路徑中,突然對助手說查詢天氣。這個就是跨垂類的場景,需要設計師考慮讓不讓跨垂類。

意圖

意圖一樣是字面上的意思,簡單點來說就是給助手一個明確的指令。意圖可以往下拆分成多個子意圖。比如查詢天氣就是主意圖,查詢深圳的天氣就是子意圖。很多主意圖助手是無法直接回答,需要進行進一步的確認才能回答。當然天氣不在此列,畢竟我們可以根據地理位置,來回答你。

中文環境下的特殊要求,多音字、同音字

在語音設計中,我們不得不考慮多音字、同音字的設計,比如說打電話給王行,如果只有一個叫“王行”的,不管“一行”還是“行走”,我們都指定同一個路徑就行了,但是如果有兩個、三個的同音字呢?而且可能同音不同字,比如說“張”與“章”。這個時候音箱該怎麼處理?音箱沒有屏幕來呈現一個列表,讓你進行區分,音箱只能通過語音來告訴你。可能已經有人想到這麼處理了,此處就不做具體討論,歡迎大家的發言。

小結

關於音箱還有非常多的細節可以寫,比如在語音識別下,可以分為識別到聲音但沒有語義(無效的聲音);沒有識別到任何聲音;識別到了聲音有語義但沒有理解。此類還可以繼續去拆分距離等因素。

當前音箱產品對於大部分指令都能及時且正確的響應,但距離與人相似的交流還有很長的路要走。我們需要更快的響應速度,更貼近自然的聲音,更豐富的多輪對話場景,以及更鮮明的“人格”,更加聰明的“ta”。


分享到:


相關文章: