當AI表現出種族或性別歧視,除了震驚我們還能做什麼?

James Zou和Londa Shiebinger認為,計算機科學家必須弄清偏差的來源,去除訓練數據中的偏差,開發出能夠應對數據偏差的人工智能算法。

谷歌翻譯(Google Translate)在將西班牙語新聞翻譯成英語時,通常將提及女人的句子翻譯成“他說”或“他寫道”。尼康相機中用來提醒拍照者照片中的人有沒有眨眼的軟件有時會把亞洲人識別為總在眨眼。單詞嵌入——一個用來處理和分析大量自然語言數據的流行算法——會把歐裔美國人的姓名識別為“正面”詞彙,而非裔美國人的姓名識別為“負面”詞彙。

當AI表現出種族或性別歧視,除了震驚我們還能做什麼?

在有偏差的數據集上訓練出的算法通常只能將左邊的圖片識別為“新娘”。

圖片來源:iStock/Getty(左圖);Prakash Singh/AFP/Getty(右圖)

在這三個例子之外,人們還發現了其他很多人工智能(AI)系統性地歧視特定人群的例證。

決策偏見並不是AI獨有的問題。但正如很多研究者所指出的,由於AI的應用範圍越來越大,因此解決AI偏見至關重要。考慮到該問題普遍存在,我們需要一種系統性的解決方案。我們在此列舉出幾種可能的策略。

偏差數據

無論是在學術界還是產業界,計算機科學家都會在訓練出更復雜的算法時獲得讚譽(從發表論文到媒體報道均是如此)。相對而言,很少有人關注數據是如何收集、處理和歸類的。

導致AI產生偏見的一個主要因素是訓練數據。大多數機器學習任務都是使用大型、帶標註的數據集來訓練的。例如,用於圖像分類的深度神經網絡通常會使用ImageNet進行訓練,其中包含了逾1400萬張帶標籤的圖片。在自然語言處理領域,標準算法是在包含上億單詞的語料庫上訓練的。

研究者們通常會利用網站來構建數據集,例如使用特定的單詞搜索Google Images或Google News,或是從維基百科等易於訪問的信息網站上收集。這些數據集接下來會被標註出來——通常由研究生來做,或是通過Amazon Mechanical Turk這樣的眾包網站進行。

這種方法會在無意中產生出包含了性別、種族和文化偏見的數據集。

通常來說,會有一些人群被代表過度,而另一些則代表不足。ImageNet推動了計算機視覺研究,但是其中超過45%的數據來源於美國,而美國人只佔世界人口的4%。相反,中國和印度加起來只佔其中3%的數據量,而兩國人口卻佔了世界人口的36%。

缺乏地理上的多樣性可以在一定程度上解釋為什麼計算機視覺算法會把傳統的身著白色婚紗的美國新娘標註為“新娘”、“禮服”“女人”、“婚禮”,而北印度新娘的照片則會被標註為“表演”和“戲服”

在醫學領域,機器學習的預測特別易受訓練數據集中的偏差影響,因為醫學數據的生成和標註都相當昂貴。去年,研究者使用深度學習從照片中識別皮膚癌。他們在包含129450張圖片的數據集上訓練了算法模型,其中60%是從Google Images上搜索而來。但是其中只有5%的圖片是深膚色人群,而算法沒有在深膚色人群中測試過。因此該算法在不同人群中的表現可能相差極大。

偏見的另一個來源可以歸於算法本身。

一個常見的機器學習程序會試圖最大化訓練數據集的整體預測準確率。如果訓練數據集中某類人群的出現頻率遠多於另一人群,那麼程序就會為佔比更多的人群進行優化,這樣才可以提高整體的準確率。計算機科學家會在“測試”集上評估算法效果,而這些通常也是原始訓練數據集的一個隨機子集,因此很可能會包含同樣的偏見。

有缺陷的算法還會造成惡性循環,使偏見越發嚴重。舉例來說,使用統計方法訓練出的系統,例如谷歌翻譯,會默認使用男性代詞。這是因為英語語料庫中男性代詞對女性代詞的比例為2:1。

更糟糕的是,每次翻譯程序默認翻出“他說”,就會提高網絡上男性代詞的比例——這可能會逆轉女性在性別平等上所獲得的艱難勝利。事實上,20世紀60年代男性代詞對女性代詞的比例高達4:1,之後因為大規模的社會變革才降到了目前的水平。

調整均衡

數據集中的偏差常常體現出了制度基礎和社會權力關係中更深、更隱蔽的不均衡。例如,維基百科看起來是一個豐富多樣的數據源,但是該網站上的人物頁面裡只有18%是女性。在關於女性的條目中,鏈接到男性條目的數量遠比男性條目鏈接到女性條目的數量要多,因此搜索引擎裡就更容易找到關於男性的條目。女性條目裡還包含了更多的伴侶和家人信息。

因此,在構建訓練數據集時必須進行技術處理,並將社會因素納入考慮範圍。具體說來,應當採取措施來保證數據集的多元化,不要使特定人群代表不足。也就是說,我們不能侷限於方便的分類方式——“女人/男人”,“黑人/白人”等——這些分類方式無法捕捉到性別和種族認同上的複雜性。

一些研究者已經開始這方面的工作了。計算機科學家最近發現,商用的面部識別系統在識別深膚色女性時,錯誤率達到了35%,而識別淺膚色男性的錯誤率僅為0.8%。為了解決這一問題,研究者們篩選出了一組新的圖片數據集,其中包含了在性別和種族上保持均衡的1270人。用這組數據重新訓練已有的面部分類算法並調整參數後,應可以提高其準確率。

為了幫助鑑定偏見的來源,我們推薦標註者使用標準化的元數據,系統性地標註訓練數據集的內容。有幾個研究組已經在著手設計“數據表”,表中包含了機器學習數據集的元數據和“營養成分標籤”。

所有訓練數據集均應說明數據是如何收集和標註的。如果數據包含了有關人類的信息,那就應當提供地域、性別、種族和其他人口學信息(見下圖“圖片的力量”)。如果數據標註是通過眾包完成的,那就應當列出眾包參與者的基本信息,另外也要列出向眾包參與者提出的確切要求或指示。

當AI表現出種族或性別歧視,除了震驚我們還能做什麼?

數據管理者應當儘可能提供與數據相關的描述語的精確定義。例如,在犯罪司法數據裡,闡明訓練算法模型時所使用的“犯罪”類型可以使該模型的應用範圍和解釋方式更加明確。

算法內的修正

很多期刊已經要求作者為實驗數據提供這類信息,作為發表的先決條件。例如,《自然》要求作者將DNA微陣列數據上傳至可公開訪問的數據庫Gene Expression Omnibus,而該數據庫則要求作者提交實驗方法的元數據。

我們推薦機器學習會議(如國際機器學習大會)的組織者也將標準化的元數據作為論文提交和同行評議的關鍵組成。OpenML這樣的數據庫和Kaggle這樣的AI競賽平臺也應當如此。

最後,計算機科學家應努力開發能夠穩定應對數據中的人類偏見的算法。

目前人們已經在進行各種各樣的嘗試。其中一種是加入約束條件,本質上說就是調整機器學習模型,讓它能夠在不同的群體和相似的個體間均有相似的表現。類似的一種嘗試是修改學習算法,減少它對種族、性別、收入等敏感特性以及所有與此相關的信息的依賴。

這種新出現的除偏嘗試確實有潛力,但是需要在現實場景中進一步調整和評估。

但是,這類解決方案還有一個尚無解法的問題,即種族、性別和其他相關信息必須被準確記錄下來。除非數據集中已經包含了適當的分類,否則就很難確定到底應該給模型加入什麼樣的約束條件,或是做出什麼樣的修正。這種解決方案還要求算法設計者預先決定好他們想要避免的偏見類型。

一個互補的方法是使用機器學習本身來識別並量化算法和數據中的偏見。這叫做“執行AI審計”,其中“審計員”是一個會系統性監測原始機器學習模型的算法,以便識別模型和訓練數據集中的偏見。

例如,我們最近的工作是使用單詞嵌入這一流行的機器學習算法來量化美國曆史上的刻板印象。單詞嵌入會把每個英語單詞映射到空間中的一個點(即一個幾何向量),向量之間的距離表示單詞間語義上的相似性。它可以捕捉到類比關係:例如“男人”對“國王”正如“女人”對“女王”。

我們開發了一個算法——AI審計員——來查詢其他性別相關的類比關係。最後發現了“男人”對“醫生”正如“女人”對“護士”;或是“男人”對“程序員”正如“女人”對“家庭主婦”的關係。

一旦審計員發現了單詞嵌入和原始文本中的刻板印象,就有可能通過修改單詞向量的位置來減少偏見。更重要的是,識別出刻板印象的發展趨勢之後,在歷史文本上訓練的算法就可以相應除偏。

例如,我們對Google Books中1910-1990年每十年一組的美國文章進行了嵌入,由此發現了對亞裔美國人令人震驚的態度轉變。1910年,他們被描述為“怪物”和“野蠻人”,到了1990年就變成了“拘謹”和“敏感”——最大的變化發生在二戰之後和上世紀80年代的移民潮時期。

正確的事

當計算機科學家、倫理學家、社會科學家等人努力提高數據和AI的公平性時,我們所有人都應該思考“公平”到底應該指什麼。數據是應當表現現有的世界,還是應當表現大多數人所追求的世界?

又比如,用來評估應聘者的AI工具是應當評價應聘者是否有能力,還是應聘者是否能融入工作環境?應該讓誰來決定哪種“公平”才是更為優先的?

為了解決這些問題,以及評估訓練數據集和算法在更大範圍內的影響,機器學習的研究者應當去和社會科學家以及人文、性別、醫學、環境和法律領域的專家合作。

現在已有各方在努力促成這類合作,例如我們在斯坦福大學參與的“以人為本的人工智能”項目。這種合作必須從本科生開始。學生在學習算法的時候,就應該在社會大背景下考察AI。

計算機、程序和進程塑造了我們的態度、行為和文化。AI正在改變我們的經濟和社會,改變我們交流的方式,改變我們的行政和政治。不平等在我們的社會中積疾已久,不能讓AI在不經意間延續甚至惡化這一問題了。


分享到:


相關文章: