09.03 「智能造物」能識別“假笑”的AI,離我們還有多遠?

世界人民三觀並不一定相同,但在識別“假笑”這件事兒上卻基本上都能做到。不管身處哪個國家,人們基本上都能更好地分辨出笑聲到底是真的還是假的。

「智能造物」能識別“假笑”的AI,離我們還有多遠?

這是因為自然笑容的肌肉、聲音和硬擠出來的笑容肌肉、聲音是截然不同的,比如緊繃度和流暢度。打個比方,你很容易看出來“假笑男孩”是在“假笑”。

「智能造物」能識別“假笑”的AI,離我們還有多遠?

那麼,既然人能識別“假笑”,那機器能不能做到?或者說,以目前的技術發展水平來說,人工智能是否可以通過識別技術來對人進行情緒識別進而做出相應的反應呢?

我們知道,目前人工智能最成熟的應用之一就是圖像和語音識別,其已經廣泛應用到拍照識物、畫面增強、人機交互等各種領域。但顯而易見的是,目前其很大程度上還是處於識別和歸類的層面,想要透過表層的識別去進行深層的情緒認識和理解,進而優化人機交互的體驗,尚需時日。

但這並不代表人們對人工智能情緒識別的望塵莫及。作為對人的表層識別的深層次延伸,情緒識別帶來的變化將是非常積極的。那麼,如今的人工智能情緒識別到底發展怎樣?它離進入我們的現實生活,到底還有多遠?

情緒大都一樣,手法各有不同

我們知道,人的情緒體現是多方面的。表情、語言、動作等,都可以作為人類表達情緒的載體。不同的情緒會以不同的形式體現出來,比如一個人開心的話就會笑,嘴巴兩邊向上翹起,眼角也會微翹;如果特別開心的話,會“哈哈”大笑。那麼,很多研究者就抓住各種情緒對應的表情或動作,來對機器進行訓練和學習。

可以說,凡是能反映情緒的地方,都已經被研究者們翻遍了。

眼球轉動分析個性。民科對眼球轉動體現人的心理活動早就有過一些總結,比如興奮的時候兩眼放光,沮喪的時候兩眼無光,悲傷的時候瞳孔無神,憤怒的時候怒目圓睜等等。還有人認為眼球向左上方看是說謊,右上方看則是思考。無論科學與否,其總歸是證明眼球對判斷人的性格、情緒是由一定的作用的。

「智能造物」能識別“假笑”的AI,離我們還有多遠?

最近麻省理工就通過機器學習來捕捉面部表情的細微變化,從而衡量一個人的心理感受。通過把18段視頻分解為一幀一幀的圖片,模型可以通過學習來獲得相應表情背後的情緒。最主要的是,它有別於傳統表情識別的一刀切,可以根據需要進行重新訓練,具有高度的個體適用性。

語言表現分析。除了觀色之外,判斷人的情緒的另一個直觀方法就是“察言”。比如說話聲音的高低、打字速度的快慢等等。

「智能造物」能識別“假笑”的AI,離我們還有多遠?

日本軟銀公司的情感機器人pepper,其搭載的攝像頭讓其具備表情識別的功能,同時又可以基於雲端的語音識別來實現對人說話的語調識別,從而獲取人的說話情緒,來實現其所標榜的“情感機器人”的功能。同時,IBM開發的能感知情感的在線客服系統,也可以通過學習識別藏在語法、打字速度中的人的情緒,類似的對話式情感識別人工智能還有微軟的小冰等。

除此之外,結合可穿戴設備來獲取人的脈搏頻率等體徵也將有助於情感的獲得。總之,在人臉識別、語音識別、傳感器和各種數據算法的加持下,人工智能識別情緒看起來呈現出欣欣向榮的態勢。

研究者的“小山頭”,或是情緒識別“笨笨的”之因

然而,我們從以上的研究現狀當中可以看到比較明顯的研究特點。

第一,技術研究呈現“小山頭”。即很多研究者都在試圖通過自己所擅長的技術領域去進行解釋和實驗,比如有的擅長圖像識別,有的擅長語音識別,有的則擅長傳感器數據分析等。這些研究者或研究團隊往往擁有自己的技術優勢,但也存在一定的短板。

第二,技術研究的實驗室限制。雖然三歲小孩兒都會“看人臉色”,但這對機器來說已經殊為不易。因此,目前的情緒識別仍然處於起步階段,很多技術還存在於實驗室或論文當中。而這離走進現實,至少要三五個年頭。

即便是一些公司研發出成品應用,其也一直飽受詬病,顯得笨笨的。比如pepper常被吐槽總是聽不清人說的話,小冰受到的吐槽更是一言難盡。技術尚未成熟就推出產品,其用戶粘性自然不值一提。

「智能造物」能識別“假笑”的AI,離我們還有多遠?

那麼,為什麼情緒識別對pepper、小冰們來說這麼難呢?

正常來說,利用機器識別人的表情從而進行情緒判斷是非常有想象力的,而且遠景誘人。因為即便是人,有時候也很難察覺一些一閃而過的表情,導致無法判斷對方此時的心理情緒。但是擁有了成熟圖像識別和聲音捕捉能力的人工智能,處理這些事情看來應該是如砍瓜切菜。

那麼,導致人工智能“笨笨的”的現狀,也算是事出有因了。

比如我們上文分析過的一個原因。各研究團隊或公司往往是利用一種或兩種識別技術進行情緒判斷,或抓住某個微表情、某一個聲音,這顯然是不完善的、片面的。比如“憤怒”和“激勵”兩種情緒,瘋狂的激勵往往表現為離奇的憤怒,同樣都是怒目圓睜、吼聲震天,人工智能該如何把這兩種情緒識別開?

這時候,單純的表情識別和聲音識別就體現出侷限性了,其還有必要加入動作識別。比如手是握緊拳頭的加油狀,還是食指指向對方的挑釁狀。如果再加上語言內容識別等其他因素,形成一個綜合性因素的判斷,將更有利於情緒的精準識別。

也就是說,情緒識別也就不僅僅是“察言觀色”的事兒,還必須要“觀其行”,對人進行全方位、立體式分析。

此外,情緒識別還有可能因為虛假的表象而增加難度。比如文章開頭提到的假笑。單單是識別人們的最直觀情緒就已經困難重重,如何去破解隱藏在偽裝背後的情緒就顯得更為棘手。

「智能造物」能識別“假笑”的AI,離我們還有多遠?

(非常低落而緩慢地跟小冰說話得到無情回答)

但情緒識別的難度顯然並非僅僅是我們以上分析的幾點。原因在於,情緒是一種心理行為,其也會由於個體的不同而展現出不同的表現形式,比如不同的文化當中同一手勢就代表不同的意思,就像貼面在有的國家是禮節行為,在有的國家就是流氓行徑。

因此,情緒與心理相關的複雜性導致其與人的動作、表情並不一定呈必然相關性。但這並不意味著就沒有研究它的意義,反而讓我們能夠明確:研究情緒識別並不是一定要令每種情緒都有對應的外在表現,而是能夠最大程度地利用人工智能幫助我們理解情緒,從而挖掘更多的可能。

總之,儘管情緒識別目前還很單薄,不足以令其成為粘度很高的日常產品。但可以肯定的是,一旦技術成熟,其帶來的益處將不僅僅是工業級的,更是貼近最廣大的消費者。當情緒可以被當作讀懂自己的鏡子,人們也就可以獲得更多來自他“人”的理解,從而解決更多實際生活中的難題。

聯繫方式:

官方網站:www.gdiia.net

官方郵箱:[email protected]

聯繫人:李先生 13326499196


分享到:


相關文章: