Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程

Ian Goodfellow最新论文:神经网络无比脆弱,对抗攻击重新编程

Ian Goodfellow最新论文:神经网络无比脆弱,对抗攻击重新编程

新智元編譯

編譯:金磊、肖琴

【新智元導讀】對抗攻擊通常會使得神經網絡分類錯誤,但谷歌大腦團隊的Ian Goodfellow 等人的新研究提出一個更加複雜的攻擊目標:對神經網絡重新編程,誘導模型執行攻擊者選定的新任務。該研究首次表明了神經網絡驚人的脆弱性和靈活性。

論文地址:

https://arxiv.org/pdf/1806.11146.pdf

Ian Goodfellow最新论文:神经网络无比脆弱,对抗攻击重新编程

對抗樣本(adversarial examples)的研究一般是為了預防攻擊者通過對模型的輸入進行微小的修改,從而導致模型的預測產生偏差。這樣的攻擊者可能通過一張貼紙(一個小的Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程擾動)就讓無人駕駛汽車對停車標誌產生反應,或者通過精巧地修改損害情況的照片(一個小的Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程擾動)導致保險公司的損失模型高估了事故的賠償值。考慮到這些,研究人員們提出了很多方法來構建以及抵抗這種

對抗性攻擊(adversrial attacks)

迄今為止,大多數的對抗性攻擊主要由無目標攻擊(untargeted attacks)和有目標攻擊(targeted attacks)組成。無目標攻擊旨在降低模型的性能,但不一定需要產生一個特定的輸出;而有目標攻擊旨在對模型設計一個對抗性干擾的輸入,從而產生一個特定的輸出。例如,對一個分類器的攻擊可能是為了針對每張圖像得到特定的輸出類別,或者,對一個強化學習智能體的攻擊可能是為了誘導該智能體進入一個特定的狀態。

近日,谷歌大腦的 Gamaleldin F. Elsayed、Ian Goodfellow 和 Jascha Sohl-Dickstein 等人的新研究考慮了一個更加複雜的攻擊目標:在不需要攻擊者計算特定期望輸出的情況下,誘導模型執行攻擊者選定的一個任務。

對抗性重編程

考慮一個訓練用來執行一些原始任務的模型:對於輸入,它將產生輸出Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程。考慮一個敵人(adversary),它希望執行一個對抗的任務:對於輸入

Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程(不一定和x在同一個域),敵人希望計算一個函數Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程。我們證明敵人可以通過學習對抗性重編程函數( adversarial reprogramming functions)
Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程來實現這一點,這兩個函數是兩個任務之間的映射。這裡,hf 將來自x˜的域的輸入轉換成
Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程的域。

在這項工作中,為了簡單起見,並且為了獲得高度可解釋的結果,我們將定義為小圖像(small images),g是處理小圖形的函數,是大圖像(large images),f是處理大圖像的函數。函數Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程只包括在大圖像的中心繪製,在邊框中繪製θ,而

Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程只是輸出類標籤之間的硬編碼映射。

然而,這個想法更具通用性;Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程可以是在兩個任務的輸入(輸出)格式之間轉換的任何一致性轉換,並使模型執行對抗性任務。

我們指的是一類攻擊,在這種攻擊中,機器學習算法被重新用於執行一項新的任務,即對抗性重編程(adversarial reprogramming)。我們將θ稱為對抗程序( adversarial program)。與以往大多數對抗樣本的研究相比,這種擾動的幅度不需要受到限制。這種攻擊不需要使人類察覺不到,或是需要很微妙才被認為是成功的。對抗性重編程的潛在後果包括:從公共服務中竊取計算資源,或將AI驅動的助理改造成間諜機器人或垃圾郵件機器人。

在這篇文章中,我們介紹了對抗性重編程的第一個實例。我們提出一種設計對抗程序的訓練過程,對抗程序將導致神經網絡執行新的任務。在實驗部分,我們演示了針對用於ImageNet數據分類的幾個卷積神經網絡的對抗程序。這些對抗程序將網絡的功能從ImageNet分類改變成:對圖像中的方塊進行計數;對MNIST的數字進行分類,對CIFAR-10圖像進行分類。我們還研究了訓練好的和未訓練的網絡對對抗性重編程的易感性。

方法

我們提出的攻擊場景如下:當執行一個特定任務時,敵人已經獲取了神經網絡的參數,並希望通過使用一個可以加入到網絡輸入中的攻擊程序來操縱網絡的函數,以此來執行一個新的任務。在這裡,我們假設原始的網絡是用來執行ImageNet分類的,但是本文討論的方法是具有可擴展性的。

我們的對抗性程序將作為網絡輸入的附加貢獻。值得注意的是,不像其他大多數對抗性干擾,我們的對抗性程序並不針對單一的圖像。同樣的對抗性程序將應用到所有的圖像中。我們將對抗性程序定義為:

Ian Goodfellow最新论文:神经网络无比脆弱,对抗攻击重新编程

其中,Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程是將要學到的對抗性程序的參數,n是ImageNet圖像的寬度,

M是一個masking矩陣。值得注意的是,M並不是必需的。

Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程作為我們所希望應用到對抗性任務中數據集的一個樣本,其中Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程。那麼相應的對抗性圖像可表示為:

Ian Goodfellow最新论文:神经网络无比脆弱,对抗攻击重新编程

給定一個輸入圖像Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程,使

Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程作為一個ImageNet分類器賦予ImageNet標籤y∈{1,…,1000}的概率。我們定義一個硬編碼(hard-coded)映射函數Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程,它是將對抗性任務
Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程中的一個標籤映射到一個ImageNet標籤集合。至此,我們對抗性的目標就是將概率Ian Goodfellow最新論文:神經網絡無比脆弱,對抗攻擊重新編程最大化。於是,我們將優化問題設置為:

Ian Goodfellow最新论文:神经网络无比脆弱,对抗攻击重新编程

實驗結果

1. 計算圖像中的方格數

首先從簡單的對抗性任務開始,即計算圖像中的方格數。結果如圖所示:

Ian Goodfellow最新论文:神经网络无比脆弱,对抗攻击重新编程

圖1:對抗性重編程的說明。

(a)將ImageNet標籤映射到對抗性任務的標籤(圖像中的方塊)。

(b)對抗性任務中的圖像(左側)是嵌入在一個對抗性問題中的(中間),產生對抗性圖像(右側)。

(c)利用對抗性圖像進行推測的說明。

2. MNIST分類

Ian Goodfellow最新论文:神经网络无比脆弱,对抗攻击重新编程

圖2:為MNIST分類進行對抗性編程的例子。

對抗性程序導致6個ImageNet模型轉而用作MNIST分類器。

3. CIFAR-10分類

Ian Goodfellow最新论文:神经网络无比脆弱,对抗攻击重新编程

圖3:CIFAR-10分類中對抗性圖像的例子(圖注)

對抗性程序重新利用一個Inception V3 模型作為CIFAR-10分類器的替代函數。

Ian Goodfellow最新论文:神经网络无比脆弱,对抗攻击重新编程

表:訓練好的ImageNet分類器可以對抗性地再編程來執行多種任務

4. 再次編程未訓練以及對抗性訓練過的網絡

Ian Goodfellow最新论文:神经网络无比脆弱,对抗攻击重新编程

圖4:對抗性程序不論在網絡還是任務中都表現出質的相似性和不同性。

(a)頂部:將在ImageNet上預訓練的網絡重新利用來計算圖像中方塊數量的對抗性程序。

中部:將在ImageNet上預訓練的網絡作為MNIST分類器函數的對抗性程序。

底部:對抗性程序將相同的網絡作為CIFAR-10分類器。

(b)針對具有隨機初始化參數的重組網絡,對抗性程序將其作為MNIST分類器。

論文地址:

https://arxiv.org/pdf/1806.11146.pdf

Ian Goodfellow最新论文:神经网络无比脆弱,对抗攻击重新编程

【加入社群】


分享到:


相關文章: