05.21 圖像識別攻擊還沒完全解決,語音識別攻擊又來了!

雷鋒網 AI 科技評論按:當前的語音識別技術發展良好,各大公司的語音識別率也到了非常高的水平。語音識別技術落地場景也很多,比如智能音箱,還有近期的谷歌 IO 大會上爆紅的會打電話的 Google 助手等。本文章的重點是如何使用對抗性攻擊來攻擊語音識別系統。本文發表在 The Gradient 上,雷鋒網將全文翻譯如下。

图像识别攻击还没完全解决,语音识别攻击又来了!

假設你在房間的角落放一臺低聲嗡嗡作響的設備就能阻礙 NSA 竊聽你的私人談話。你會覺得這是從來自科幻小說嗎?其實這項技術不久就會實現。

今年 1 月,伯克利人工智能研究人員 Nicholas Carlini 和 David Wagner 發明了一種針對語音識別 AI 的新型攻擊方法。只需增加一些細微的噪音,這項攻擊就可以欺騙語音識別系統使它產生任何攻擊者想要的輸出。論文已經發表在 https://arxiv.org/pdf/1801.01944.pdf。

雖然本文是首次提出針對語音識別系統的攻擊,但也有其他例如針對圖像識別模型系統的攻擊(這個問題已經得到了不少研究,具體技術手段可以參考NIPS 2017 圖像識別攻防對抗總結),這些都表明深度學習算法存在嚴重的安全漏洞。

深度學習為什麼不安全?

2013 年,Szegedy 等人引入了第一個對抗性樣本,即對人類來說看似正常的輸入,但卻可以欺騙系統從而使它輸出錯誤預測。Szegedy 的論文介紹了一種針對圖像識別系統的攻擊方法,該系統通過在圖片(蝸牛圖片)中添加少量專門設計的噪聲,添加完的新圖像對於人來說並未改變,但增加的噪聲可能會誘使圖像識別模型將蝸牛分類為完全不同的對象(比如手套)。進一步的研究發現,對抗性攻擊的威脅普遍存在:對抗性樣本在現實世界中也能奏效,涉及的改動大小最小可以只有 1 個像素;而且各種各樣內容的圖像都可以施加對抗性攻擊。

图像识别攻击还没完全解决,语音识别攻击又来了!

這些攻擊的例子就是深度學習的阿基里斯之踵。試想如果僅僅通過在停車標誌上貼上貼紙就可能破壞自動駕駛車輛的安全行駛,那我們還怎麼相信自動駕駛技術?因此,如果我們想要在一些關鍵任務中安全使用深度學習技術,那麼我們就需要提前瞭解這些弱點還要知道如何防範這些弱點。

對抗攻擊的兩種形式

對抗攻擊分為針對性攻擊和非針對性攻擊兩種形式。

非針對性對抗攻擊僅僅是讓模型做出錯誤的預測,對於錯誤類型卻不做干預。以語音識別為例,通常攻擊完產生的錯誤結果都是無害的,比如把「I'm taking a walk in Central Park」轉變為「I am taking a walk in Central Park」。

針對性對抗攻擊則危險的多,因為這種攻擊通常會誘導模型產生攻擊者想要的錯誤。例如黑客只需在「我去中央公園散步」的音頻中加入一些難以察覺的噪音,模型就會將該音頻轉換為隨機亂碼,靜音,甚至像「立即打 911!」這樣的句子。

图像识别攻击还没完全解决,语音识别攻击又来了!

花的愛擁還是死亡之萼?蘭花螳螂是自然界中眾多針對性欺騙的例子之一

對抗攻擊算法

Carlini 和 Wagner 的算法針對語音識別模型的進行了第一次針對性對抗攻擊。它通過生成原始音頻的「基線」失真噪音來欺騙模型,然後使用定製的損失函數來縮小失真直到無法聽到

基線失真是通過標準對抗攻擊生成的,可以將其視為監督學習任務的變體。在監督學習中,輸入數據保持不變,而模型通過更新使做出正確預測的可能性最大化。然而,在針對性對抗攻擊中,模型保持不變,通過更新輸入數據使出現特定錯誤預測的概率最大化。因此,監督學習可以生成一個高效轉錄音頻的模型,而對抗性攻擊則高效的生成可以欺騙模型的輸入音頻樣本。

但是,我們如何計算模型輸出某種分類的概率呢?

图像识别攻击还没完全解决,语音识别攻击又来了!

通過算法推導出此音頻片段中所說的詞語並不容易。難點有如每個單詞從哪裡開始和哪裡結束?

在語音識別中,正確分類的概率是使用連接主義時空分類(CTC)損失函數計算的。設計 CTC 損失函數的關鍵出發點是界定音頻邊界很困難:與通常由空格分隔的書面語言不同,音頻數據以連續波形的形式存在。因為詞彙波形之間可能存在許多「特徵」,所以某個句子的正確識別率很難最大化。CTC 通過計算所有可能的輸出中「期望輸出」的總概率來解決這個問題。

Carlini 和Wagner 做出的改進

儘管這種初始基線攻擊能夠成功的欺騙目標模型,但人們也容易發覺音頻被改動過。這是因為 CTC 損耗優化器傾向於在已經騙過模型的音頻片段中添加不必要的失真,而不是專注於目標模型更難欺騙的部分。

图像识别攻击还没完全解决,语音识别攻击又来了!

Carlini&Wagner 的自定義損失函數。π 是已計算特徵,δ 是已學習對抗失真,τ 是最大可接受音量,ci是一個用於最小化失真並進一步欺騙模型的參數,Li是第 i 個輸出令牌的損失。

由於針對性攻擊的最薄弱環節直接決定了攻擊的強力與否,Carlini 和 Wagner 引入了一個定製的損失函數,該函數會懲罰最強攻擊部分的不必要的失真。以基線失真為始,該算法會迭代地最小化該函數,在保持失真的對抗性的同時逐漸降低其音量,直到人聽不到為止。最終的結果是音頻樣本聽起來與原始樣本完全相同,但攻擊者可以使目標語音識別模型產生任意他想要的結果。

現實世界中的對抗攻擊

儘管語音攻擊令人擔憂,但相比其它應用類型中的攻擊,語音識別攻擊可能並不那麼危險。例如,不像自動駕駛中的計算機視覺技術,語音識別很少成為關鍵應用的核心控制點。並且語音激活控件可以有 10 秒左右的時間冗餘,這段時間完全可以用來正確理解命令然後再去執行。

另外,對抗性攻擊理論上可以用於確保隱私。比如製造一個設備,這個設備通過發出柔和的背景噪音使監控系統系將周圍的對話誤認為完全沉默。即使竊聽者設法記錄您的對話,但要從 PB 級的非結構化原始音頻搜索出有用信息,還需要將音頻自動轉換為書面文字,這些對抗性攻擊旨在破壞這一轉化過程。

不過目前還並沒有大功告成。Carlini & Wagner 的攻擊在使用揚聲器播放時會失效,因為揚聲器會扭曲攻擊噪音的模式。另外,針對語音轉文本模型的攻擊必須根據每段音頻進行定製,這個過程還不能實時完成。回顧過去,研究者們只花費了幾年的時間就將 Szegedy 的初始圖像攻擊發展的如此強大,試想如果針對語音的對抗性攻擊的發展速度也這麼快,那麼 Carlini 和 Wagner 的研究成果著實值得關注。

雷鋒網 AI 科技評論認為對抗性攻擊可能會利用深度學習的算法漏洞進行破壞,引發諸如自動駕駛等應用的安全問題,但如上文所述,針對音頻的對抗性攻擊對於隱私保護也有積極意義。

via thegradient.pub,雷鋒網 AI 科技評論編譯


分享到:


相關文章: