07.02 B測試帶來的道德問題

我們並不使用“真正的”Facebook,或者Twitter、谷歌、雅虎和LinkedIn。我們幾乎都在參與各種試驗。這些公司悄悄進行了一些試驗,以瞭解略有變化的不同版本能否帶來更多的使用、訪問、點擊和購買。在註冊這些服務時,我們從技術上已同意成為參與試驗的豚鼠。

不過上週末,Facebook引發了一場爭議。該公司某名數據科學研究員發佈的報告顯示,該公司對689003名用戶進行了試驗,以觀察在動態彙總中向用戶更多地展示正面或負面內容是否會影響他們的愉悅程度,而這將根據用戶自己發佈的內容來推斷。關於操縱情緒,這一試驗帶來的影響微乎其微,但這也引發了關於A/B測試的道德問題。

首先,讓我們來看看此次事件及其引發的大問題:

試驗幾乎未帶來影響

請了解這一研究本身,或是閱讀一下塞巴斯蒂安·迪特爾丁(Sebastian Deterding)的分析,從而瞭解此次事件及其帶來的反應。

3名研究員,包括Facebook核心的數據科學家亞當·克拉默(Adam Kramer),希望證明,在線社交網絡是否會帶來情緒的傳染。在為期一週的時間裡,Facebook在一些用戶的動態彙總中展示了更少的正面或負面內容,並跟蹤這些用戶隨後發佈的內容有多少是正面,多少是負面。結果顯示,看到正面內容較少的用戶隨後發佈正面內容的可能性下降了0.1%,但他們的狀態更新顯得不太高興。看到負面內容較少的用戶隨後發佈負面內容的可能性下降了0.07%,但他們的狀態更新則顯得較為開心。

許多新聞報道認為,這樣的研究是有害的,但實際上,試驗僅僅令一小部分用戶感到“悲傷”。

此外,這種影響可能並非由於受試者的情緒改變,僅僅只是基於通過Facebook上看到的內容而“隨大流”。成功的試驗應當是可自我延續的,例如看到更少的負面內容可能促使你修改即將發佈的內容,使自己的生活看起來更完美。這項研究沒有發現的另一點是,在Facebook上查看更多的正面內容會使你產生嫉妒和不快,因為你自己的生活並沒有如此有趣。不過,Facebook仍僅僅跟蹤了用戶隨後發佈的內容,而不是他們的感覺本身。

Facebook並未獲得用戶同意或道德委員會的批准

關於研究是否道德,Facebook僅僅進行了內部評估。一名消息人士對《福布斯》雜誌的克什米·希爾(Kashmir Hill)表示,這一研究並沒有預先提交給機構評估委員會進行審批。機構評估委員會是一個獨立的道德委員會,要求科學試驗符合一定的安全和許可標準,從而確保受試對象的權益。我在大學時設計的一項試驗也通過了機構評估委員會的審批,因此可以證明,Facebook的這項研究很可能無法滿足多個前提條件。

不過Facebook表示,該公司經常對用戶的動態彙總進行調整,已測試什麼類型的內容和設計能帶來最大的用戶參與度。Facebook希望瞭解,如何讓用戶發佈更開心的內容,或是在Facebook上花更多時間。Facebook將此次的做法視為又一次A/B測試,而大部分科技公司、創業公司和新聞網站都會持續進行這種測試。從技術上來說,Facebook已獲得了所有用戶的認可,因為用戶在註冊時已經自動同意了該網站的數據使用政策。Facebook的條款顯示,“我們可能會使用所獲得的關於你的信息,進行數據分析、測試、研究,以及服務的改進”。

許多人認為,這種認可的形式非常虛弱,而受試者並不清楚他們是否參與試驗,試驗的規模和意圖,可能的風險,數據是否保密,以及沒有權利不參加這一試驗。一些人認為,Facebook應當尋求用戶的同意,並允許用戶選擇不參加試驗。

所有公司都在進行A/B測試

這一研究的實質影響不大,並很可能被外界過分誇大。不過,目前公眾的討論集中於道德問題。

可以肯定,許多公司都會進行A/B測試,但大部分測試都是以業務為導向的,例如為了增加用戶使用頻率,或提升點擊率和購買率。然而,Facebook的這一研究是為了操縱人們的正面或負面情緒,以證明關於社交傳染性的科學理論。我認為,為了研究情緒而影響他人情緒是這一研究引發激烈反應的主要原因。一些人認為,試驗的意圖是什麼並不重要,因為沒有人知道他們真正想要的是什麼,尤其是對一家營利性公司來說。不過我認為,在區分哪些行為應當得到監督時,這是一個重要因素。

無論如何,在試驗中引起用戶的沮喪都會帶來實質風險。迪特爾丁指出,美國全國精神健康研究所的數據顯示,9.5%美國人存在情緒失常的問題,這可能會導致抑鬱症。參與Facebook試驗的受試者中肯定也有這樣的人群。這些人在試驗中看到了更多令人沮喪的內容,這可能帶來危險。如果有證據表明,受試者中有人隨後出現自殺行為,或是患上抑鬱症,那麼Facebook必將承受新一輪的口誅筆伐。

所有產品、品牌、政治家、慈善組織和社會運動都試圖在一定程度上操縱你的情緒,它們會進行A/B測試,找到操縱的方法。通過使你感覺愉悅、不安全、樂觀、悲觀或憤怒,它們希望你更多地使用、更多地花錢,給予它們支持,向它們捐款,或參與請願活動。有許多工具可以用於發現如何更好地操縱人類情緒,例如分析、關注組和A/B測試。通常情況下,人們無法選擇不參加試驗。

Facebook的做法是不道德的。儘管該公司經常進行測試以提升用戶參與度,從而製造了一個灰色地帶,但此次報道中的試驗試圖直接影響人們的情緒。

一家公司調整自己的內容,以改變用戶情緒,從而實現商業目的,這樣的做法很簡單,也在人們的預料之中。但一個信息門戶操縱用戶好友分享的內容,為了科學研究而使用戶感到沮喪,這樣的做法則完全不同。

你可能會想到麥當勞。麥當勞的口號是“我就喜歡”,這樣的口號使你感覺,如果缺少麥當勞你可能會感到不開心。而政治家通常會採取措施,確保你在投票支持他們之後感到更樂觀。不過,許多人甚至並不理解一個基本概念,即Facebook使用相關性排序算法,對用戶的動態彙總進行過濾,以確保最大的用戶參與度。他們甚至不會意識到,Facebook向他們展示的積極內容較少,為了檢驗科學理論而使他們感到悲傷。

最終,帶有這類意圖和風險的試驗應當基於自願原則,而Facebook未來應當考慮這樣做。無論你個人對道德有何看法,從研究安排和公眾當前的憤怒來說,Facebook都犯了一個錯誤。

不過,儘管Facebook成為眾所關注的焦點,但A/B測試的道德問題實際上更嚴重。如果你認為,操縱他人的情緒是不道德的,那麼大部分主流科技公司,以及其他一些行業,也都存在同樣的錯誤。

監管,或者至少採取一些保障措施

那麼,我們應當做些什麼?進行此類測試的公司有大有小,每次測試存在的風險等級也不同,有的無傷大雅,有的則非常危險。禁止任何“操縱情緒”的測試可能會帶來關於准入制無休止的討論,也非常難以執行,並有可能抑制創新,不利於我們所使用產品的質量。

不過仍有某些實力強大的公司能以普通人無法理解的方式影響人們的情緒。

因此,一個良好的起點是,如果公司嘗試進行測試,操縱人們的情緒,那麼至少應當提供選擇,允許用戶不參與測試。並不一定所有測試都需如此,但對一些真正存在風險的測試,例如向用戶展示更多令人沮喪的內容,需要這樣去做。科技公司不能由於他人沒有這樣做為由,拒絕充當道德改進的先鋒。提供一種選擇,允許用戶選擇是否充當試驗的豚鼠,這種方式有助於提升用戶信心。通過設置頁面向用戶提供不參與測試的選項,同時給他們提供根據測試結果不斷改進的標準產品。並不是所有用戶都應當站到第一線,幫助公司確定什麼樣的做法最好。為了徵求用戶許可而給產品增加一定的複雜度是值得的。

為了給用戶提供一些獨立的保護措施,避免有害的大規模情緒操縱行為,美國聯邦貿易委員會(FTC)可以考慮對這樣的測試進行審查。FTC已經與Facebook、谷歌、Twitter和Snapchat等公司達成了和解方案,在10到20年的時間裡審查這些服務的隱私保護行為。基於保護消費者這一同樣的目標,FTC可以對試驗性的產品調整進行道德監督。不幸的是,這些和解方案規定,公司不得取消隱私控制功能,這樣的條款促使公司不再增加新的隱私控制功能。

至少,科技公司可以對數據科學家和其他設計A/B測試的人員進行培訓,向他們告知道德研究方法,以及設計的試驗應得到機構評估委員會的審批。即使科技公司不將某次特定的測試提交審批,也應當知道什麼是最佳行為方式,即確保試驗的安全,富有同情心。

我們正快速走向由數據驅動的世界,而道德問題需要儘快跟上。(譯:維金)

The Morality Of A/B Testing


分享到:


相關文章: