AI情緒識別技術背後:一場悄然來襲的「暴政」


AI情緒識別技術背後:一場悄然來襲的“暴政”


大數據文摘出品

編譯:Travis、狗小白、雪清、顧晨波、陳同學、錢天培

從天貓精靈、監控探頭,到自動駕駛汽車,情緒檢測技術正變得無處不在。

語音助手檢測著我們的音調和音色,以便更好地理解命令。

公共空間遍佈了跟蹤識別人臉的攝像頭,據稱可以在犯罪分子犯罪之前鎖定他們。

在未來,自動駕駛汽車將能夠發現駕駛員路怒行為,並強制控制車輛。

不可否認,情緒檢測的技術在AI時代不斷飛速發展。然而,這些情緒監控技術都基於了一種過時的科學概念:所有人都有同樣的六種基本情感。

這樣的假設真的成立麼?人類情感的粗暴劃分又會帶來什麼後果呢?

讓我們從人類情緒研究的源頭說起,一起來探究這兩個令人細思極恐問題。

一個不幸的少年和被他定義的人類情緒


大多數情緒檢測技術都基於一個理論基礎,這個理論基礎源自一個不幸的少年。

保羅埃克曼出生於1934年,他的父親是一名兒科醫生,母親是一名律師。他在青年時期夢想著能效仿他的英雄費迪南德·麥哲倫,有朝一日可以改變世界。


AI情緒識別技術背後:一場悄然來襲的“暴政”



當埃克曼14歲時,他母親由於抑鬱症的折磨而自殺。在2008年舊金山探索博物館的一次演講中他提到即使在他很年輕的時候,也覺得“自己必須做些什麼,來彌補無法拯救母親的事實”。他的夢想從對自然地理的探索轉移到對心理世界的探索。

然而在僅僅一年之後,也就是1948年,埃克曼從高中退學。

他非常聰明,但經常與老師發生衝突。當時,學生只需要兩年完成高中學業就可以申請一些大學。之後,埃克曼成為了芝加哥大學的一名本科生。

受到弗洛伊德的強烈影響,埃克曼決定繼續完成心理治療博士學習,研究抑鬱症。他對非語言交流著迷,著重研究患者的肢體語言和手部動作。

不久,他意識到他的病人只是代表了一個有偏的樣本:他正在研究抑鬱症的倖存者,而不是那些已經死於抑鬱症的人。他認為,想要更好地理解人類並幫助像他母親這樣的人,不應該通過觀察異常行為,而是應該對正常行為加以更深的研究。

AI情緒識別技術背後:一場悄然來襲的“暴政”


抑鬱症是一種情緒障礙,這個以麥哲倫為偶像的男人終於找到了自己的思路:探尋是否所有人都經歷過一系列共同的情緒。

在20世紀60年代,埃克曼並不是這個研究方向的獨行者。

著名的人類學家瑪格麗特米德已經花了數年時間環遊世界,證明文化會以不同的方式表達情感。最有名的案例是,米德曾在20世紀20年代生活在美屬薩摩亞的小島上,試圖研究美國和歐洲青少年所經歷的情緒劇變是否具有普遍性。

她發現,年輕的薩摩亞女性沒有像他們同時代人在美國經歷過的那種與道德相關的強烈感受,如焦慮和厭惡等。例如,對於十幾歲的薩摩亞女性來說,在結婚和開始一個家庭之前,進行無罪的性行為是很隨意很正常的。

1928年,當米德的《薩摩亞時代的到來》出版時,她的發現震驚了美國讀者,並以強有力的證據表明人類的基本經驗,包括情感,是因文化而異的。

米德的研究中關於情感和其他社會現象在文化上構建的證據,對20世紀的女權主義思想和行動有著巨大的影響。她提出這樣的觀點:自由戀愛是擺脫男性主導地位的一種方式;養育而不是遺傳,在人們的行為方式中起著核心作用。在寫完《薩摩亞時代來臨》之後,米德發現越來越多的例子表明,西方的情感思維方式對非西方土著人的經歷並不適用。

例如,她1932年出版的《印第安部落的變化文化》一書,記錄了困擾美國原住民“平原部落”的文化衝突。其成員往往很難從傳統習俗轉而適應西方的行為和情感。

到20世紀60年代後期,米德的觀點在西方几乎都是科學共識,絕大多數學者都認為,情感並非是跨文化統一的。

埃克曼卻對此表示懷疑。

埃克曼質疑的源頭可以追溯至查爾斯·達爾文的研究。1872年,達爾文在《人與動物情感的表達》中指出,一些本能行為,比如驚訝地抬起眉毛,在動物和人類之間沒有區別。對於達爾文來說,這進一步證明了人類和其他動物具有某種共同的進化祖先,以及情感具有某種生物學來源。


AI情緒識別技術背後:一場悄然來襲的“暴政”


1955年,米德為達爾文的論文重新寫了前言,但她強調這只是出於對歷史研究的好奇心。在她看來,和更現代的研究相比,達爾文的研究並不是一項成熟工作。

然而,達爾文的文章對埃克曼產生了巨大的影響。當《人與動物情感的表達》於1998年再次出版時,埃克曼為其寫了一篇前言。他支持達爾文最初的猜想,而這時輿論環境也已經有了變化。人和動物擁有與生俱來的情緒這個觀點再度被人們接受,Ekman的研究為此起到了很大作用。

有一點值得注意的是,達爾文並不是第一個猜測情緒是天生的學者。兩千多年前,亞里士多德寫到,“有些人,他們在任何角度來看都不一樣,但卻有著相同的面部表情。”亞里士多德也不是唯一一個以這種方式思考的古代哲學家。

它在整個古代都得到了傳播,並持續到17世紀後期。受笛卡爾“靈魂的激情”影響,藝術家查爾斯勒布倫寫了一篇論文,主張高級藝術應該更多地使用誇張的面部表情,並且他總結了一些基本的情緒表達。他的《學習繪製激情的方法》於1698年出版。他在著作出版之前就去世了,但他的素描在之後幾個世紀對歐洲藝術理論產生了巨大的影響。

AI情緒識別技術背後:一場悄然來襲的“暴政”


臉部表情素描


勒布倫的畫作用於相面術,這種相面術認為,臉部不僅是情感展現的窗口,也是心靈的窗口:醜陋就是一種原罪,如果一個人長相近似牲畜意味著這人的品行近乎野獸。

直至20世紀仍然盛傳的相面術和其分支學派(比如骨相學),為許多偏見和歧視的流行提供了藉口。例如,美國醫師詹姆斯在其1852年的著作《比較生理學》的目錄中列了一串類似於“猶太人之於山羊”“阿茲特克兒童之於老鼠”,甚至“土耳其人之於殘暴者”這些在當今會被視作種族歧視的文字。

雖然達爾文和艾克曼的著作從未支持過相面術,但面相能夠暴露內心想法的古老觀點在歷史中不斷以不同的形式出現,甚至至今仍為人信奉。

到了1964年的時候,埃克曼陷入了困境:他無法在不首先精確定義表情的情況下研究情感行為,但當時沒人能做到為這些表情下定義。這時,後來成為埃克曼最親密的共事者——心理學家蘇爾凡為其引薦了達爾文的著作《人與動物情感的表達》。

受到達爾文著作的啟發,他確信,如果要驗證其假說,首先得找到觀測量化人類微表情的方法,這樣他就能研究這些面部表情和內心普遍的情緒是否存在相關性。

埃克曼和湯姆金,以及另一位同事弗裡森花了八年時間發展其理論。埃克曼和弗裡森讓來自美國、巴西、智利、阿根廷以及日本的學生來用表達情緒的詞彙描述其看到的表情圖,從而驗證其方法可行性。他們很快得到這個明顯的結論:在不同的國家,六種基本的表情都對應著六種情緒。

這些情緒為:幸福、憤怒、悲傷、鄙夷、驚訝和恐懼。

AI情緒識別技術背後:一場悄然來襲的“暴政”


埃克曼研究中使用的六種基本情緒表情。從左上角順時鐘方向分別為:憤怒、恐懼、鄙夷、悲傷、幸福和驚訝。

無獨有偶,另外一名澳大利亞的人種學者艾比爾獨立研究得出類似的結論。研究結果證實了埃克曼的觀點:存在一組可以通過面部表情來鑑定的、基礎的、普遍的人類感情。

但這些結論存在一個漏洞:所有埃克曼和艾比爾的研究對象都是西方媒體的影響物,包括各種圖片、電影或者是電視節目。埃克曼認識到,要真正驗證其假說,它需要“研究哪些未曾見過外面世界的對象”。

在他母親逝世近20年後,埃克曼像麥哲倫一樣,乘坐一架舊飛機飛往巴布亞新幾內亞,尋找偏僻的部族。

埃克曼和弗裡森在巴布亞新幾內亞的東南高地連綿的山巒中尋找未接觸過西方媒體的人群。在歐卡巴峽谷的密林間,埃克曼他們找到了福爾族人,西方人類學家兩個世紀前第一次發現了這個族群,此後並未有過打擾。在灣尼溫蒂山脈的北側和南側,福爾族人沿著山脈住在棚屋中,幾乎隔絕於外面的世界。

隨著他們抵達福爾部落,埃克曼和弗裡森對他們的潛在實驗者進行了篩選。他們沒看過任何西方電影或媒體結果,因而不會受西方情緒反應影響;他們得不會說英語;而且也從未與外來者合作過、或曾比鄰而居過。符合條件的有189名成人和130位兒童。

測試方法與其它地區方法一樣,觀察辨析圖片和情境。得知福爾族人有三種方言,埃克曼和弗裡森對翻譯者進行了嚴格的訓練,確保對情境的不同翻譯不會影響試驗結果。

儘管從未見過這些圖片,福爾族人非常迅速地理解了實驗。成人觀察三種臉部表情,兒童觀察兩種,每個表情圖附有情境介紹,例如“這個人準備打架”。

如果表情放之四海而皆準,情境介紹應當只聯繫到其中的一張圖。

研究結果證明了這個觀點:福爾族人在93%的情況下,與其它並不偏遠地區的人對錶情和情境介紹作出了同樣的配對。

埃克曼和弗裡森認為他們成功地證明了,所有的人類,都能感受到六中基本情緒:幸福、憤怒、悲傷、鄙夷、驚訝和恐懼。

AI情緒識別技術背後:一場悄然來襲的“暴政”


他們在1971年發表了自己的研究成果。米德對此目瞪口呆。

埃克曼的研究本可以到此為止,但他的好奇心驅使他繼續。他想知道為什麼米德和其他人會得出錯誤的結論。他好奇是否表情在普遍行之外,也會受到特定文化要求人們應當如何表現的影響。

因此,他進行了又一項實驗。他將美軍醫療救助裡的嚴重燒傷和截肢的視頻播放給在美國和東京的學生觀看。他們將實驗者分為兩組,一組有個權威者(穿白衣的科學家)陪同觀看,一組沒有。埃克曼偷偷拍下他們觀看視頻的表情,發現有權威者陪同的那組實驗者與另一組表現不同:日本學生看起來更淡漠、面無表情狀;而美國人表情更加誇張。

無陪同的那組日本學生和美國人表情類似,沒有明顯的區別。兩者不同顯然是由身穿白衣的米德觸發了兩組人的不同表現。埃克曼表示,人類學家看到的是實驗者想要他們看到的表情。

令人驚奇的是,不論陪同者是誰,如果降低視頻播放速度,你都能看到這六種面部表情的輕微跡象。埃克曼將其理論化為:儘管有文化方面的影響,這六種普遍的表情是不能被剋制住的。埃克曼將其命名為“微表情”。

埃克曼的成功還帶來了其他發現。舉一個較近的例子,2008年,加州大學洛杉磯分校(UCLA)的人類學家格雷戈裡和巴雷特實施了埃克曼和弗裡森的“聲音實驗”的一個版本。厄瓜多爾的舒阿爾(Shuar)族人,而非福爾(Fore)族人,將作為與美國被試者進行比較的群體。

兩個小組都被要求聽一些容易在英語和舒阿爾語之間翻譯的簡單句子,如“狗在房子裡”和“她吃了魚”,這些語句沒有透露出說話者的任何情感信息。變化的僅僅是聲音的音色。

接下來,要求參與者從五張帶有面部表情的圖片中選取一張,其最能代表他們聽到的聲音所表達的情感。同樣地,兩組之間的結果相似,這表明儘管存在後天學習上的差異,普遍的基本情緒也可以在言語中體現出來。

埃克曼的研究,以及在一定程度上格雷戈裡和巴雷特的研究,仍被許多人認為是決定性的。

迪士尼甚至製作出一部電影,用到了其中的五種情緒作為人物角色:《頭腦特工隊》。當然了,科技公司對研究人員的工作給予了類似的信任。


AI情緒識別技術背後:一場悄然來襲的“暴政”



當埃克曼的基本情感遇上數字時代


如果沒有情感,人工智能將缺乏很大一部分的感知能力;而一臺無法理解情緒的機器是無法以人的方式對命令做出反應的。這種科學實踐的例子不僅僅侷限在高校或是硅谷。

近五分之一的美國成年人擁有Amazon Echo或同等智能音箱,如Google Home。亞馬遜希望人們信任他們的虛擬助手Alexa,因此他們會使用耳語,吶喊,不同的音調和語速來表達情感,並使她的聲音變得更加人性化。Alexa還會分析我們的聲音,以弄清楚我們的情緒。當你生氣時,Alexa會讓你冷靜下來;當你快樂時,她可以和你一同享受快樂。所有這些都行之有效。

蘋果的Siri,微軟的Cortana以及Google助手背後的團隊都在開發使用語音和麵部識別的情感檢測系統——相同的面部識別技術已經可以用來訪問iPhone X.

情感檢測技術和人工情感也被用於防護工作。Affectiva希望監控司機,從他們的聲音,肢體語言和麵部表情上識別出情緒。如果你有嚴重的路怒症,或是癱倒在方向盤上,他們的Automotive AI平臺就可以控制汽車,帶你到最近的安全地帶,如有必要,還會打電話求救。

AI情緒識別技術背後:一場悄然來襲的“暴政”


人工情感技術也被用作打擊犯罪的工具。1978年以來,埃克曼一直親自教人們檢測微表情。他曾在中央情報局,蘇格蘭場,國土安全部和其他許多地方訓練過操作員和軍官;他甚至教過皮克斯動畫工作室的團隊如何將微表情帶入角色的面部。

他的作品也啟發了一部題為“千謊百計”的電視劇,並擔任顧問。然而,該劇的刻意渲染使觀眾誤以為“讀懂”某人的微表情是那麼容易。

2007年,TSA啟動了一項名為“通過觀測技術篩查乘客”(Screening Passengers by Observation Techniques, SPOT)的計劃——機場安保人員接受了培訓,要讀出在等待航班的乘客臉上的微表情,以此識別恐怖分子。

這項計劃徹底地失敗了——飛行的壓力使乘客以非典型的方式觀察和行動。

在人類失敗之處,技術卻可以解決問題。位於紐約的羅徹斯特大學收集了超過一百萬張面孔的圖片,建立起一個微表情數據庫。

這是一種訓練機器的方法,以評估在機場排隊的人是否可能是恐怖分子。容易犯錯的人類大腦已派不上用場,取而代之的是在機場觀察人類的情感檢測AI,通過探頭和警方的觀察室相連。

如果沒有埃克曼對基本情緒和微表情的發現,那麼開發情感檢測技術會更加困難。當情緒可以分類和測量時,編寫軟件會更容易。但問題在於——所有的這些系統在進行較大規模的試驗時,似乎都遇到了某種問題。一旦你嘗試大規模地應用基本的情緒模型,它看起來就不那麼可靠了。

這可能是因為,情緒並不像埃克曼所認為的那麼簡單。

悄然來襲的情緒暴政


“人只有六種基本情緒”這個想法存在三個問題。

首先要指出的是,人們對“情緒”的定義仍然沒有統一意見。

過去50年來,幾乎每篇論文都有自己的說法。心理學家Robert Sternberg稱情緒為“由對內部和外部事件作出的在生理和行為(可能是認知)上的反應組成的一種感覺”;神經科學家Jaak Panksepp將其定義為“強烈鼓勵有機體衝動行事的大腦系統的強烈激發”;而社會心理學家Phoebe Ellsworth說,情緒是一個過程,當一個人的注意力被一些差異或變化所影響時就會觸發。

而更大的問題在於埃克曼和弗裡森的巴布亞新幾內亞實驗(New Guinea experiment)本身。

這項研究存在三個主要問題。

首先,他們不是最早與福爾族人見面並記錄其部落風俗的人。人類學家羅納德與凱瑟琳曾在1953年研究過福爾族人居住的北部地區,而傳教士和政府巡邏隊在此之前已經造訪過福爾南部地區了。

當埃克曼訪問福爾部落時,曾經以對外敵意和同類相食而著稱的福爾人正在種植咖啡和使用金錢。(埃克曼談到了資助者對他提出的收據請求,開玩笑說他不得不為“當地巫醫的祝福”之類的開支保留分類賬目。)到20世紀60年代後期為止,福爾部落成員與外界完全隔離的概率很小。

該研究的第二個問題在於對當地語言的翻譯。

每一個專業的翻譯人員都會告訴你,翻譯不是將一種語言的某個單詞換成另一種語言的某個單詞。同時,也未必能在對象語言中找到匹配的單詞。將英語翻譯成福爾族語言,這種與英語風格迥異的語言,使這個問題愈發嚴重,無論翻譯人員的表現如何出類拔萃。

AI情緒識別技術背後:一場悄然來襲的“暴政”


研究的第三個問題是照片中的面部表情。

在現實生活中,很少面部表情會像埃克曼照片中的那樣明顯或誇張。心理學家詹姆斯及其團隊最近的研究表明,使用越逼真的面部表情圖,8歲前的兒童越不容易識別表情中所蘊含的情緒。

例如,年幼的孩子不知道“厭惡”的表情背後,蘊含的究竟是厭惡還是憤怒的情緒。最近,由心理學家麗莎領導的一個小組發現,如果在提供的照片中有著各種各樣的面部表情,並允許參與者將照片自行分類,這些類別都會因為文化差異而有所不同。

這就導致了第三個大問題——不同的人會有不同的基礎情感列表。當然,還有一些理解情感的方法,不要求情感分類是普遍的,或是簡單可識別的。

例如,“情感理論的心理學構建”方法正在情感研究界大受支持。這一方法表明,雖然我們都感受到類似的,稱之為“核心影響源”的東西,但是每一種情感的“構建”,實際上都是由很多因素組成的。

這些因素包括了我們從小到大培養的情感感知,描述這些感受的語言,產生情感時所處的情境,先前產生這些感受時留下的記憶以及其他許多因素。情感,不只是一種感覺,一種表情。

這樣看來,情感的分類並不是普遍使用的。即使所有人類共享的他們經歷,同樣是驅使我們遠離發黴食物的那種“討厭”感覺,這些經歷在不同的文化中以不同的方式進行表述,同時不總是具有相同的面部表情或聲音線索。

遺憾的是,這種細微差別似乎並沒有被開發人員和程序員察覺。

人們已經開始在機場接受監控;許多美國人已經在家中安置了Alexa語音助手或是與“她”同類的智能助手;自動駕駛汽車已經嶄露頭角(即使你現在買不到)。

所有這些智能系統都出過問題。Alexa語音助手曾經與無關者進行了私人談話,自動駕駛汽車曾經撞向行人,任何嘗試在護照安檢處,使用所謂“最先進”面部識別系統的人,都知道他們可能會對使用經歷感到沮喪。

我們希望這些設備和系統使我們保持冷靜,判斷我們的“路怒症”指數,或是察覺我們的犯罪傾向嗎?被一副智能太陽眼鏡“出賣”行動,並且還被錯誤指控判刑的日子,還有多久?

將不同文化背景中,情感多種多樣的表達方式,合而為一,這無疑減少了世界各地豐富的情感表達。

所有人都要有一樣的規範化的情緒,這正是一種赤裸裸的“情感暴政” 。

如果不加以制止,這個暴政將伴隨著情感檢測技術發展,在不久的將來傳播到世界的各個角落。

你自己的情緒,將不再由你自己所定義。

相關報道:

https://howwegettonext.com/silicon-valley-thinks-everyone-feels-the-same-six-emotions-38354a0ef3d7


分享到:


相關文章: