「深度」AI攻防技術三例

「深度」AI攻防技术三例

AI是建立保護機制和對抗複雜攻擊的關鍵因素。目前,有很多的AI框架都很成熟,這正是應該將AI應用到防禦系統的最佳時刻。本文描述針對AI系統的攻擊技術和針對AI攻擊的防護。總的來說,針對分類器的攻擊可以分為三類:對抗輸入、數據投毒攻擊、模型竊取(model stealing)技術。

「深度」AI攻防技术三例

針對機器學習分類器的攻擊概覽

原文:https://elie.net/blog/ai/attacks-against-machine-learning-an-overview

編譯:plus評論員 張濤

本文描述針對AI系統的攻擊技術和針對AI攻擊的防護。總的來說,針對分類器的攻擊可以分為三類:對抗輸入、數據投毒攻擊、模型竊取(model stealing)技術。

  • 對抗輸入。對抗輸入是為了讓分類器的分類結果不可靠來避免被檢測的經過特殊構造的輸入。對抗輸入包括專門用來避免被反病毒軟件檢測的惡意文檔和避免不被垃圾郵件過濾器過濾的郵件。

  • 數據投毒攻擊。數據投毒攻擊是指給分類器的訓練樣本中加入對抗數據。最常見的攻擊類型是模型傾斜(model skewing),攻擊者會嘗試汙染訓練數據,達到改變分類器的分類邊界的目的。第二種攻擊類型是反饋武器化(feedback weaponization),攻擊者會濫用反饋機制來操縱系統使其將善意的內容錯誤分類為惡意的內容。

  • 模型竊取技術。模型竊取技術是指通過黑盒探測來竊取模型或者恢復訓練數據成員,比如竊取股票市場預測模型和垃圾郵件過濾模型,攻擊者利用該技術可以針對性地有效地優化攻擊模型。

本文將分析這些攻擊類型,並提供具體的攻擊實例和一些可能的緩解技術。

一、對抗輸入

攻擊者會經常性地去用新的輸入或payload來試探分類器,並嘗試避免被檢測到。這樣的payload叫做對抗性輸入,因為這些payload設計的目的就是為了繞過分類器。

「深度」AI攻防技术三例

下面以Gmail垃圾郵件分類器對抗性輸入為例進行說明:

一個聰明的垃圾郵件發送者會意識到如果同樣的多部分附件在一個郵件中多次出現,那麼Gmail只會展示最後一個附件(見上圖)。研究人員通過增加不可見的第一多部分附件將該知識武器化,第一多部分附件中含有許多聲譽(信用)比較好的域名來達到避免檢測的目的。該攻擊是關鍵字堆積攻擊的一個變種。

總的來說,分類器面臨兩種類型的對抗輸入:mutated input(突變輸入)和zero-day input(0 day輸入)。Mutated input是一種避免被分類器識別的攻擊變種,zero-day input是指之前從未見過的payload。

Mutated input(突變輸入)

「深度」AI攻防技术三例

過去這些年在地下市場有很多向網絡犯罪分子提供避免被檢測到的payload的服務。這些服務涵蓋測試服務和自動化packer,測試服務可以測試payload是否可以通過反病毒軟件的檢測,自動化packer可以混淆惡意文檔使其不被檢測到。

因此,開發一個輸入的檢測系統是非常有必要的,這樣的話攻擊者再進行payload優化就很難了。下面是3個重要的設計策略:

1、 限制信息洩露

「深度」AI攻防技术三例

限制信息洩露的目的是確保攻擊者在探測系統時獲取儘可能少的反饋。因此,儘可能少的反饋信息就很重要,比如避免返回詳細的錯誤代碼或值。

2、 限制探測

限制探測的目的是通過限制攻擊者的payload探測系統的頻率來限制攻擊者對系統的探測。通過限制payload探測系統的頻率可以減緩攻擊者設計出有害payload的速度。

「深度」AI攻防技术三例

該策略主要是通過對IP、賬號等稀缺資源的限制來實現的。一個經典例子就是如果用戶頻繁發帖就讓用戶識別並輸入一個驗證碼。

「深度」AI攻防技术三例

這種速率限制的負面效應是攻擊者可能會創建虛假賬號、使用被黑的用戶計算機來多樣化其IP池。速率限制在各行各業的廣泛應用也是黑市論壇上賬號和IP地址售賣的一個主要驅動力。

3、集成學習(Ensemble learning)

還有一點很重要的就是集成學習,將不同的檢測機制融合在一起,這會讓攻擊者很難繞過整個系統的檢測。使用集成學習可以融合AI分類器、檢測規則、異常檢測等不同類型的檢測模型,可以改善系統的魯棒性,因為攻擊者必須設計出可以一次性繞過所有機制的payload,但又很難成功。

「深度」AI攻防技术三例

為了確保Gmail分類器對垃圾郵件的分類魯棒性,Google的研究人員就採用了集成學習的方法,融合了多個分類器和輔助系統,包括信用機制、線性分類器、深度學習分類器和其他的技術。

針對深度神經網絡的對抗攻擊的例子

「深度」AI攻防技术三例

還有一個非常活躍的領域就是如何偽造對抗樣本來欺騙深度神經網絡。如論文Explaining and Harnessing Adversarial Examples中就證明了很容易地就可以創建一些樣本來欺騙深度神經網絡,如上圖所示。

最近的研究表明CNN易受到對抗輸入攻擊,因為CNN會去學習表層數據規律,而不是學習深層的表示。這類攻擊會影響所有的深度神經網絡,包括基於增強學習的神經網絡。

從防護者的角度來看,這類攻擊是非常麻煩的,因為還沒有一種有效的方法來預防此類攻擊,沒有一種有效的方式來了解深度神經網絡如何生成善意的輸出。

0 day輸入

另一種對抗輸入就是0 day輸入,這對分類器來說說一種全新的攻擊方式。新的攻擊並不經常發生,但瞭解如何應對是非常重要的。

「深度」AI攻防技术三例

新的攻擊出現經常會有很多不可預測的原因,比如:

新產品或特徵的出現。一般來說,增加了新的功能就開啟了新的攻擊面,攻擊者會很快就會發起探測。這也就是為什麼要在新產品發佈時提供0 day防護的原因。

激勵的增加。這是一個很少被提及的話題,許多新的攻擊出現都是因為這個攻擊單元變得非常盈利。比如,2017年因為比特幣價格的激增,許多攻擊者濫用雲服務來進行加密貨幣挖礦。當比特幣的價格超過1萬美元時,出現了竊取Google雲計算資源來進行挖礦的攻擊方式。

總的來說,Nassim Taleb的黑天鵝理論可以應用到基於AI的防禦中來:遲早一種不可預測的攻擊會繞過分類器,並帶來一些影響。

下面是一些應對的方向:

1、 開發應急響應流程

首先要做的就是開發和測試應急響應的流程來確保能夠第一時間正確地做出反應。這包括但不限於當調試分類器時要有必要的控制措施來延遲或者終止處理過程。Google的SRE(Site Reliability Engineering)手冊、NIST的cybersecurity event recovery指南都可以作為參考。

2、 用遷移學習來保護新產品

一個明顯的難題是你沒有過去的數據來訓練分類器。其中一個解決的辦法就是使用遷移學習,遷移學習可以從一個域中重用已有的數據並應用到其他領域中。

比如,你在處理圖像問題時可以用已有的預訓練的模型,那麼當你要處理文本時,就可以使用Jigsaw這樣的公共數據集。

3、 異常檢測

異常檢測算法可以被用作防禦的第一步,因為新的攻擊在利用系統的漏洞時會產生一些從未見出現過的異常。

當比特幣的價格2017年瘋漲的時候,我們發現一些惡意的攻擊者使用免費的Google雲服務來進行挖礦。為了使用免費的雲服務,攻擊者嘗試竊取信用卡、黑掉合法雲用戶的計算機、通過釣魚等方式劫持雲用戶的賬戶等方式來發起攻擊。

「深度」AI攻防技术三例

Google的工程師在Google雲實例上部署了異常檢測系統。上圖就是異常檢測系統的圖示。當攻擊者利用雲資源進行挖礦時,相關的資源利用率與正常的資源利用率相比變化非常大,異常系統很快就可以檢測出這類異常。

二、數據投毒攻擊

分類器面臨的第二類攻擊就是嘗試通過汙染數據,讓系統做出錯誤的行為。

模型傾斜

第一類數據投毒攻擊叫做模型傾斜(model skewing),在攻擊中攻擊者會嘗試汙染訓練數據,使分類器識別善意的輸入和惡意輸入的邊界發生變化。比如,模型傾斜可以用來汙染訓練數據來欺騙分配器將特定的惡意文件標記為善意的。

具體實例

「深度」AI攻防技术三例

在實踐中,研究人員經常會發現一些高級的垃圾郵件發送群組嘗試通過將一些垃圾郵件報告(反饋)為非垃圾郵件來讓Gmail過濾器不再記錄該垃圾郵件。如圖所示,2017年11月到2018年初,至少有4次針對分類器的大規模攻擊。

這樣,在設計基於AI的防禦機制時,需要考慮如下問題:攻擊者會嘗試去改變分類器通過學習建立的分類邊界。

緩解措施

為了預防攻擊者傾斜模型,可以使用下面的三種方法:

  • 使用敏感的數據樣本。要確保一小部分的實體(包括用戶和IP)不會引起模型訓練數據太大比例的變化。尤其是要注意用戶反饋的假陽性和假陰性的數據。

  • 比較新訓練的分類器和之前的分類器,估計變化的多少。比如,在系統的流量下比較2個模型的輸出,或者對流量進行AB測試。

  • 建立黃金數據集,來確保分類器可以精確地預測。理想的數據集應該是策劃的攻擊內容和正常內容的集合。該過程可以確保當武器化的攻擊對模型產生明顯變化的時候可以在對用戶造成負面影響前檢測到。

反饋武器化

數據投毒攻擊的另一種方式是將用戶的反饋武器化來攻擊合法的用戶和內容。一旦攻擊者意識到你在使用用戶反饋,那麼他們也會嘗試利用用戶反饋發起攻擊。

示例

「深度」AI攻防技术三例

將反饋武器化的一個例子是2017年有組織通過上千個1星評價讓CNN應用在蘋果應用商店和谷歌官方應用商店中的排名降低。

「深度」AI攻防技术三例

攻擊者使用反饋武器化有很多的原因,比如減小競爭、報復等等。上圖是黑市上討論如何利用Google來踢出競爭者。

因此,在建立系統時要有一個假設:所有的反饋機制都可能會被武器化來攻擊合法用戶和內容。

緩解措施

下面是緩解反饋武器化的2個措施:

  • 不要在反饋機制和懲罰機制之間建立直接關係。確保反饋評價的真實性,並與其他信息結合起來做出最終的決定。

  • 不要假設內容的所有者會從中受益。比如,用戶不會因為一張照片有上百個虛假的喜歡就去購買。在現實中,很有時候攻擊者會用合法的內容去掩蓋蹤跡或嘗試以此來使一些無辜的人受到處罰。

三、模型竊取(Model-stealing)攻擊

最後一種針對機器學習的攻擊就是模型竊取攻擊,模型竊取攻擊時指嘗試恢復模型或訓練中使用的數據的信息。這樣的攻擊是一個很重要的顧慮,因為模型是一種非常有價值的知識產權資產,是用公司中最有價值的數據去訓練的,比如金融交易、醫療信息、用戶交易信息等等。

確保使用用戶隱私數據進行訓練的模型的安全性是非常重要的,因為這些模型可能會被濫用造成用戶敏感信息的洩漏。

攻擊

模型竊取攻擊主要有兩種形式:模型重建和成員洩漏。

  • 模型創建。模型重建的關鍵是攻擊者能夠通過探測公有API和限制自己的模型來重建一個模型。論文Stealing Machine Learning Models via Prediction APIs中證明了此類攻擊對包含SVM、隨機森林、深度神經網絡在內的大多數AI算法都是有效的。

  • 成員洩漏。黑客可以通過建立影子模型的方式來決定用哪些記錄來訓練模型。這樣的攻擊雖然不需要恢復模型,但會洩漏敏感信息。

防禦

「深度」AI攻防技术三例

針對模型竊取攻擊,最好的防禦措施就是PATE,這是Ian Goodfellow等人提出的一種隱私框架,詳見論文Scalable Private Learning with PATE。如上圖所示,PATE的關鍵思想就是將數據分區並訓練多個模型,最後根據多個模型的結果去作決策。最後的決策也可能會被其他差分隱私系統這樣的噪聲所欺騙。

四、結論

AI是建立保護機制和對抗複雜攻擊的關鍵因素。目前,有很多的AI框架都很成熟,這正是應該將AI應用到防禦系統的最佳時刻。

(全文完)

學術plus】 新添加號內搜索功能!快來試試!

進入公眾號→點擊菜單【智庫掃描】→【搜搜文章】→輸入關鍵詞→一鍵檢索文章。

聲明:版權歸原作者所有。文章觀點不代表本機構立場。

  • 《中國電子科學研究院學報》歡迎各位專家、學者賜稿!投稿鏈接

    http://kjpl.cbpt.cnki.net

  • 學報電話:010-68893411

  • 學報郵箱:[email protected]


分享到:


相關文章: