年末了,想和從事語音圈的你談談!

近年來隨著天貓精靈和小愛同學的大火,讓我們逐漸發現人工智能的自然語言處理技術已然到了一個新的臺階,而利用語音交互引爆的智能音箱熱顯然也讓很多公司看到了商機,所以開始大量招聘語音產品經理和語音交互設計師,不難看出,按照現在的形勢來看未來這將是一個熱門崗位。

去年天貓精靈隨著雙11的熱潮走進了千家萬戶,剛開始的時候,對於很少接觸這類語音類產品的用戶,可以說是抱著很高的期待。

但是隨著時間的推移讓我們把目光放到現在來看的話,似乎我們的期望過高,這些產品並沒有改變人們的生活狀態。

而那些使用過這類智能音響的用戶們對產品的評價只有一個詞:呆板!

直到現在,人工智能的技術與五年的技術已經不可同日而語,但是從始至終無論是蘋果的siri還是亞馬遜的Alexa給大家的印象基本還是沒變,那就是;呆板!

這也使得目前語音產品的位置十分尷尬。

年末了,想和從事語音圈的你談談!

我認為目前語音產品的根本原因不單單是因為技術問題,因為目前人工智能的語音識別技術已經十分強大。普通話、方言都信手拈來,但是“呆板”這是一個用戶腦子裡面的概念——語音產品能夠聽懂其意思,但是給用戶的感覺依舊只是一個能聽懂方言的呆子。

如果不能從哲學和認知科學的角度去分析用戶為什麼會認為這些產品笨,那麼我們對語音交互的認知會掉進一個死衚衕中。

為了說明這個問題,我們一步步來,先理解一個概念:交互的界限。

一、交互的界限


當我們與機器進行交互時,我們能對機器做的事情是限定在一個有限的範圍之內的(也就是說指令是一個有限集合),我把這個範圍定義為交互的界限。

傳統的視覺交互界面,都是有邊界的交互;並且,交互的邊界需儘量明確。

交互設計有一條很重要的原則,叫做可視化原則,就是指

需要把用戶能夠進行的操作都讓用戶看到——把交互的界限展示給用戶,不要讓用戶去尋找界限。

視覺界面的交互下,用戶所有的操作,都是設計者預先設計好的,用戶做的只是“選擇題”;並且用戶也知道,只能做“選擇題”。

語音交互對於計算機來說,只是信息的程現方式不同,其邊界的性質並沒有發生變化。

於是就有了最原始的、沒有火起來的語音交互形式,選擇題的形式:“個人服務請按1,公司服務請按2,人工諮詢請按0”——這種語音交互是界限清晰,運作良好的,也從來沒有用戶會用“呆板”來形容它們。

然而,語音交互就老老實實像視覺交互一樣做選擇題不好嗎?為什麼視覺交互人們從來不提到人工智能,而語音交互,人們總是把它和人工智能搞混在一起?

我們來看第二個概念:信息的多樣性。

二、信息的多樣性


聽覺信息和視覺信息,在物理屬性上面是完全不同的。

  • 視覺信息,是空間二維的信息,且在時間這個維度上是可以持續的。
  • 聽覺信息,是空間零維的信息,其存在僅僅只能在時間這個維度上閃現。


於是,在呈現交互的界限時(也就是提供“選擇題”的選項時),視覺界面可以在時間空間中呈現任意複雜的界面,完成複雜高效的操作;而語音界面,其選項在被呈現的同時也在消逝,必須依靠人的短時記憶把選項存儲下來。

而人的短時記憶容量非常有限的,只能存儲7個簡單的信息模塊。於是,傳統語音界面的複雜程度,被限制在了人短時記憶容量的範圍之內。這麼小的信息量,註定了這種有邊界的語音地位尷尬,只能“小打小鬧”。不太可能成為一種重要的交互方式。

三、人與現實的交互


在反觀我們現實世界,我們基於視覺信息所做的事情,都是類似於“選擇題”。

比如看到一個按鈕按下,看到一雙筷子拿起——只有當空間中存在這個“選項”時,我們才能操作。

也就是說:我們基於視覺信息與現實世界進行的交互,依然類似於有邊界的“選擇題”。

然而,人與人進行語音交互的時候,卻不是在做選擇題,而是模糊邊界的(我們可以理解為沒有邊界)。

你說話的內容,並不需要在對方提供的選項之中,你發出的信息可以是創造性的。

正是因為人與人之間的語音交互是邊界模糊的,才使得語音溝通的信息量突破人類短時記憶的限制,成為人與人溝通最重要的方式。

所以,人機語音交互想要成為一種重要的交互方式,必然需要突破傳統“選擇題”的方式,成為一種沒有邊界的交互。

也就是說:

用戶可以隨意發出符合場景的指令,而不能讓機器告訴用戶它聽得懂什麼。

四、語音與人工智能


然而,當你不知道機器能聽懂什麼的時候,你只能假象對方像一個人樣,什麼都能聽得懂。

於是,語音交互一旦突破了傳統的邊界,就會一發不可收拾地朝著的方向發展。

當你聽到電話語音給你選項邊界的時候,你不會假想對方是人;但是對於Siri這種沒有提供邊界的交互,你很自然的就把對方假象成為一個有智能、有情感的生物。

很多人喜歡調戲Siri,正是因為你已經把他假象成了一個人;而當它遠遠沒有達到一個正常人應該具備的決策和判斷能力時,你就會形容它很笨。

語音交互在剛剛開始的時候,他對標的對象就已經是真實的人。只存在“像人”“不像人”兩種狀態,而不像視覺界面,人們或許還願意去學習它的交互。

為了說明視覺交互和語音交互的這點不同,需要舉一個例子:

一個農村老太太,當她使用一個視覺界面產品的時候,如果她不知道該怎麼操作,她可能會責怪自己笨;但是如果是一個語音交互產品,她無法與其進行正常交互的時候,老太太一定會認為是語音交互產品很笨。


——這就是語音交互的尷尬。

真正的語音交互要想發揮其價值,其最終的效果,就是像人與人語言交流一樣的邏輯進行交流。所以語音交互的發展總是期待人工智能技術的突破。

然而,現在人工智的水平到底如何?是否真如大家所說的奇點臨近?

這點誰也沒有辦法判斷。但是,從認知科學的角度,我能為你提供一些思路。

五、當前人工智能的發展階段


近年來,深度神經網絡的快速發展確實非常恐怖。

理解神經網絡算法的人應該都懂:神經網絡算法的底層邏輯已經不同於傳統機器邏輯判斷的算法,而是類似於人類神經系統激活的方式工作——這是大家認為機器可能會超過人類的重要原因。

然而,從認知科學的角度來說,現在的人工智能依然非常初級。

人的認知分為:感覺,知覺,注意,記憶,表象,思維,想象,等等;而感覺知覺,是人類最低級別的認知,也是被研究的最多的認知現象。

表象、思維、想象等認知現象,現在科學研究得還不多,這也是人類認知最為神秘的地方,這也正是很多宗教或者迷信認為人類存在靈魂的原因。

而我們再來看看現在人工智能的前沿領域:圖像識別,自然語言處理等等,從認知科學的角度來說,都相當於人類感覺知覺階段,遠遠沒有到達表象,思維,想象。

但是近年來,AlphaGo在圍棋領域的表現讓有些人開始懷疑:也許人類更高級的思維能力的機制和感知覺機制是一樣的。

到底人工智能能否突破認知領域的研究,超越人類,或者也許人工智能的發展會像一座巴別塔,永遠也無法到達目標,我們不做討論。

此路我們看不到明確終點,也許可以換一個思路:

語音交互並不一定要依賴通用人工智能達到人類意識的水平,而是可以通過對人類認知邏輯的直接模擬,來實現像人與人溝通一樣的體驗。


雖說人與人之間的交流是沒有明確邊界的交互,但是仍是有規律可循的。

最典型、最重要的一個特點,就是無意識推理:人與人溝通過程中,總是在不斷地進行無意識推理,並且也假象對方能進行無意識推理。

絕大多數情況下,用戶認為語音產品笨,就是因為語音產品缺少無意識推理這個認知邏輯。

年末了,想和從事語音圈的你談談!


六、無意識推理


一篇文章不可能道盡所有的無意識推理,只講幾個點,拋磚引玉。

1. 環境背景推理

我們常用的智能音箱和智能車載,都有一個激活指令。

你在家裡,哪怕只有一個人的時候,你也需要呼叫:“天貓精靈”,它才能夠激活。

——這種在連續對話中顯得尤其不方便。

當我中間停了一會,再和它說話的時候,說完我才發現我白說了,又得重新呼叫名字激活。

——這是一種非常反人類的交互。

正常人與人語音交流時,並不是通過這種激活的邏輯,而是過濾的邏輯:人的聽覺系統是隨時在線的,我聽到一句話,如果潛意識裡我知道屋裡就我們兩個人,我就會立馬處理這條信息,做出響應。

年末了,想和從事語音圈的你談談!


如上圖所示,人與人交互的邏輯與語音產品交互的邏輯是不同的


人與人的交互是隨時在線,然後過濾信息的;然而現在的語音產品,雖然技術本質上也是隨時在線的,但是對用戶來說,卻多了一個激活的過程——相當於手動按下開關。

如果屋裡有多個人會怎麼樣?

我會先等一會,發現沒有人回應時,我就會確認:“是在和我說話嗎?”然後繼續這次對話。

以此類推,人每時每刻在利用環境信息進行無意識的推理的,模擬這一點,我們在做語音產品的時候,我們可以考慮把多個維度的環境信息的數據結構化,存儲在一個緩存中,將用戶發出指令與環境信息進行邏輯運算之後,再做出響應。

比如車載就特別容易做到這一點,通過座位的傳感信息,很容知道車上有幾個人。

2. 多通道(多模態)信息推理

一群熟人坐在一起的時候,沒有誰說話之前總是要叫對方名字的。

我看你一眼再說話,就表示我在對你說。

——人的表情,動作等視覺信息,在語音溝通中也是非常重要的。

單純的語言信息存在很多缺陷,於是人類在語言信息溝通的過程中,也需要借住視覺或其他通道收集到的信息來輔助理解判斷,否則語言交流的難度會大很多。

在高級的語言溝通中,這些信息非常複雜,但是對於對於不太複雜的語音產品,最重要的就是”目光指向”。

別看這只是一個簡單的邏輯,但是在人較多的環境下,能起到非常大的作用。

天貓精靈有個烏龍事件,當你把他音量調到最大播放熱鬧的音樂的時候,它就聽不到你任何指令了。

但是在嘈雜的環境中,人與人是怎麼溝通的呢?

我會看著你說一句話,然後你會表現出聽不清的表情,然後把我拉到一個安靜的地方溝通。

所有如果語音產品能夠利用視覺通道的信息,對於語音交互的流暢度也是非常有幫助的。

比如說,在大聲播放音樂的環境中,當天貓精靈“看到”了我轉向它說話的時候,他應該自動將音量臨時調小聽我再說一遍。

再比如,如果你家裡同一個房間有多個燈。如果你想通過智能音響關燈的話,你必須要給每個燈取一個名字,這種交互非常不自然,而且還容易忘記。但是如果能利用視覺通道的信息進行輔助判斷,那麼你只要用手指著這個燈說:“關這個燈”。

3. 上下文指代信息推理

人與人溝通過程中,上下文也是非常重要的。上下文信息最重要的作用在於代詞的指代。要做到自然語言交互,指代信息必不可少。

linda說:“最近有哪裡好玩嗎?”

Alice說:“附近開了一個遊樂場不錯。”

Linda說:“我們就去那裡吧。”


最後一句話的“那裡”,是指代的“遊樂場”。

這種使用代詞的交互方式在人與人交互的過程中,是非常常見且重要的。

人與人交互的過程中,會在短時記憶裡存儲最近談話中涉及到的對象。當對話中遇到代詞時,會無意識地從短時記憶中提取對象代入語句,從而理解。

天貓精靈目前好像還完全不支持指代關係,顯得非常笨。而最近幾個版本的siri開始可以支持指代關係(以前的也不行)。比如說當你用Siri搜索過一個地點之後,你說:“去那裡”。它會知道你是要去最近搜索的地點。說明他把最近搜索的對象存存起來了。使得上下文聯繫起來,而不是獨立存在。

但是實際溝通過程中的指代關係遠比這複雜——尤其是當人物、地點、事物等指代關係同時出現的時候,還需要更加深入理解人的認知模型,才讓機器實現與人更流暢的交互。

七、路在何方


語音產品雖然已經有很長的發展歷史了,但是今天的語音產品仍然像是一個新的領域。

並且,當今的語音產品地位也比較尷尬:

一方面,語音識別技術快速發展,機器的語音識別能力已經超過人類;

但是另一方面,更高層次的語言認知模型並沒有被計算機科學家考慮在內,使得語音產品實際使用起來的時候,總是顯得很笨。

想要優化語音交互的體驗,腳踏實地地讓語音交互發揮更大的價值,釋放語音交互的生產力,需要更深入的從認知科學的角度,理解人類對語言的認知模型,做到人與語音產品的自然交互。


分享到:


相關文章: