亞馬遜陷“竊聽風雲”:僱上千員工聽用戶Alexa對話 一句“高度保密”就想躲掉?

2014年上市的亞馬遜Echo是世界上最流行的智能音箱,但近日卻因員工曝光陷入了“隱私門”。

像許多其他科技公司一樣,亞馬遜也對自己在AI方面的大舉投入毫不諱言。“我們用來訓練這些系統的數據越多,Alexa的工作效果越好,並且Alexa通過各種客戶的語音錄音進行培訓,這有助於確保Alexa適合所有人。”

但據彭博社昨日披露的深入調查結果,公司沒有明確告訴你的是——隨著時間推移,Alexa作出改善的一大原因就是讓人類來聽錄音,而非一昧地採用人工智能、深度學習。Alexa“生活在雲端,一直在變得更聰明”的口號恐怕再也難以站得住腳。

亚马逊陷“窃听风云”:雇上千员工听用户Alexa对话  一句“高度保密”就想躲掉?

全球有上千名員工負責聽錄音,有人會相互討論

此前,亞馬遜從未公開過它會人工聽取用戶和Alexa的私人聊天,也沒有披露過Alexa的語音技術中,部分包括人類參與。

彭博社報道稱,亞馬遜在全球有數千名工作人員,他們人工聽取和檢查用戶和智能語音助手Alexa的私人對話,目的是幫助Alexa改進語音識別技術。執行這一工作的團隊包括全職亞馬遜員工和合約工,工作地點遍佈世界不同地區,包括波士頓、哥斯達黎加、印度、羅馬尼亞。員工簽署了保密協議禁止公開談論這一項目。

7位為該項目工作的員工向彭博社透露了亞馬遜Alexa的這項人工聲音檢查流程,稱這款產品背後的語音識別服務自動錄製了使用者的部分對話,對存在歧義的指令進行解析並標記,併發送至亞馬遜設立在海外多地的工作站,進行人工識別與標記。羅馬尼亞首都布加勒斯特的兩位員工透露,他們一天工作9小時,每班解析多達1000條音頻片段。

當然,這一切都埋沒在很少有消費者會閱讀的產品和服務條款中,亞馬遜經常淡化在全球數百萬家庭中使用攝像頭和麥克風的隱私影響。但人們對人工智能如何受到培訓的關注,因為它在我們的日常生活中變得越來越普遍,只會繼續引發警報,特別是因為這項技術的大部分工作仍然是閉門造車,並改善亞馬遜不願透露的使用方法。

亞馬遜員工“偷聽”用戶語音記錄,以改善其服務,這種數據註釋的過程正悄然成為機器學習革命的基石,它推動了自然語言處理、機器翻譯、圖像和對象識別的進步。

AI算法只有在他們有權訪問的數據可以輕鬆解析和分類的情況下才會隨著時間的推移而改進。

在許多情況下,人類通過收聽交換記錄並正確標記數據來進行這些呼叫,以便將其反饋到系統中。這個過程被廣泛地稱為監督學習,在某些情況下,它與所謂的半監督學習中的其他更自主的技術相結合。

蘋果、谷歌和Facebook都以類似的方式使用這些技術,並且Siri和Google Assistant隨著時間的推移而得到改善,這要歸功於需要人眼和耳朵的監督學習。

亞馬遜的部分員工、承包商和一些全職工作人員,都在負責解析Alexa錄音的任務,以幫助改善助手。雖然這種方法當然沒有任何原始的惡意意圖,但大多數客戶並不經常意識到這種情況正在發生。此外,還有濫用的餘地。錄音可能包含明顯可識別的特徵和有關誰在講話的傳記信息。還不知道這些錄音的存儲時間長短,以及該信息是否曾被惡意第三方竊取或被員工誤用。

令人不安的是,本次事件中包括錄音、轉錄、識別、反饋在內的一系列工作,都是在用戶所不知情的情況下秘密完成的,其內容涉及到辦公室對話、家庭聊天、個人私密信息甚至犯罪現場等多個方面。

彭博社的報告提到了一些亞馬遜員工表示,曾聽到過他們認為可能是性侵或其他形式的犯罪​​活動的情況,在這種情況下,亞馬遜有執法的循環程序。 (有一些備受矚目的案例,其中Alexa語音數據被用於起訴犯罪。)在其他情況下,報告說,一些辦公室的工作人員還與同事分享他們覺得有趣或令人尷尬的談話片段,以“緩解壓力”。

亞馬遜在一份聲明中告訴彭博社,“我們只會註釋一小部分Alexa錄音,以便改善客戶體驗。例如,這些信息有助於我們培訓我們的語音識別和自然語言理解系統,因此Alexa可以更好地瞭解您的請求,並確保服務適用於每個人。“該公司聲稱它具有”嚴格的技術和操作保障,並有一個濫用我們系統的零容忍政策。“員工無法獲得參與Alexa語音請求的用戶的身份,並且該類別的任何信息都被“高度保密”,受到”多因素保護“用於限制訪問、服務加密和審核控制環境的身份驗證。“

儘管如此,對這種人工智能進步方法的批評者已經在一段時間內敲響警鐘,通常是在亞馬遜犯錯誤並意外地將錄音發送給錯誤的個人或者發現它已存儲數月甚至數年的錄音時。

去年,Alexa曾因判斷錯誤而“自作主張”,將一對夫妻的私人談話發給了丈夫的一位同事。早在去年12月,一位德國居民詳細說明了他如何根據GDPR數據請求從亞馬遜收到1,700個錄音,即使該男子沒有Alexa設備。通過文件解析,德國雜誌的記者c't能夠通過使用從他與Alexa的互動中收集到的信息來識別實際用戶。

亞馬遜存儲了成千上萬的語音錄音:“高度保密”?

亞馬遜正在積極尋找擺脫那種需要大量抄錄和註釋的監督學習的方法。 Wired在去年年底的一份報告中指出亞馬遜如何使用新的、更先進的技術,如所謂的主動學習和轉移學習來降低錯誤率並擴展Alexa的知識庫,即使它增加了更多的技能。

Alexa應用科學總監亞馬遜的Ruhi Sarikaya本月早些時候在Scientific American發表了一篇名為“Alexa如何學習”的文章,詳細說明了這種大規模機器學習的目標是如何減少繁瑣的人力勞動只需要解決它的錯誤。

Alexa也經常犯錯,尤其是俚語、口語、方言和非英語的語言。因此亞馬遜需要僱傭人類員工,幫助填補算法的空白。

“在最近的人工智能研究中,監督學習占主導地位。但是今天,商業人工智能系統產生的客戶互動遠遠超過我們手工開發的標籤,“Sarikaya寫道。“繼續商業人工智能迄今為止所提供的極高的改善率的唯一方法是將自己重新定位於半監督,弱監督和無監督學習。我們的系統需要學習如何改進自己。“

然而就目前而言,亞馬遜可能需要具有人類語言和文化知識的真實人員,來解析這些Alexa互動並理解它們。這種令人不舒服的現實智能音箱的那一端始終是用戶的隱私。這是AI提供的便利的代價,至少在亞馬遜的眼中是這樣。

幸虧亞馬遜所收集到的音頻相關信息中並不包括用戶的真實姓名及地址,僅有Echo設備序列號等基本信息。亞馬遜發言人則就此次“隱私門”回應稱:“我們有嚴格的技術和操作保障措施,對濫用我們系統的行為零容忍……員工不能直接訪問作為工作流程一部分的個人或賬戶標識信息,所有信息都別高度保密。”

蘋果的Siri也有人類員工的幫助,他們負責評估語音助手對請求的解釋是否與用戶說的相符。根據蘋果安全白皮書,員工檢查的Siri錄音是沒有個人身份信息的,錄音會與一個隨機標識符關聯,存儲六個月,之後這些數據就會被移除隨機標識符,但它們也有可能存儲更長時間以改善Siri的語音識別。

在谷歌,一些人類員工也可以獲取谷歌助手的音頻片段幫助訓練和改善產品,這些音頻也沒有個人身份信息,並且經過音頻失真處理。


分享到:


相關文章: