Ian Goodfellow最新論文：神經網絡無比脆弱，對抗攻擊重新編程技术頭條網

2018-07-05 01:08:03 新智元

新智元編譯

編譯：金磊、肖琴

【新智元導讀】對抗攻擊通常會使得神經網絡分類錯誤，但谷歌大腦團隊的Ian Goodfellow 等人的新研究提出一個更加複雜的攻擊目標：對神經網絡重新編程，誘導模型執行攻擊者選定的新任務。該研究首次表明了神經網絡驚人的脆弱性和靈活性。

論文地址：

https://arxiv.org/pdf/1806.11146.pdf

對抗樣本（adversarial examples）的研究一般是為了預防攻擊者通過對模型的輸入進行微小的修改，從而導致模型的預測產生偏差。這樣的攻擊者可能通過一張貼紙（一個小的 Ian Goodfellow最新論文：神經網絡無比脆弱，對抗攻擊重新編程擾動）就讓無人駕駛汽車對停車標誌產生反應，或者通過精巧地修改損害情況的照片（一個小的擾動）導致保險公司的損失模型高估了事故的賠償值。考慮到這些，研究人員們提出了很多方法來構建以及抵抗這種

對抗性攻擊（adversrial attacks）。

迄今為止，大多數的對抗性攻擊主要由無目標攻擊（untargeted attacks）和有目標攻擊（targeted attacks）組成。無目標攻擊旨在降低模型的性能，但不一定需要產生一個特定的輸出；而有目標攻擊旨在對模型設計一個對抗性干擾的輸入，從而產生一個特定的輸出。例如，對一個分類器的攻擊可能是為了針對每張圖像得到特定的輸出類別，或者，對一個強化學習智能體的攻擊可能是為了誘導該智能體進入一個特定的狀態。

近日，谷歌大腦的 Gamaleldin F. Elsayed、Ian Goodfellow 和 Jascha Sohl-Dickstein 等人的新研究考慮了一個更加複雜的攻擊目標：在不需要攻擊者計算特定期望輸出的情況下，誘導模型執行攻擊者選定的一個任務。

對抗性重編程

考慮一個訓練用來執行一些原始任務的模型：對於輸入，它將產生輸出 Ian Goodfellow最新論文：神經網絡無比脆弱，對抗攻擊重新編程。考慮一個敵人（adversary），它希望執行一個對抗的任務：對於輸入

(不一定和x在同一個域)，敵人希望計算一個函數 Ian Goodfellow最新論文：神經網絡無比脆弱，對抗攻擊重新編程

。我們證明敵人可以通過學習對抗性重編程函數（ adversarial reprogramming functions）

和

來實現這一點，這兩個函數是兩個任務之間的映射。這裡，hf 將來自x˜的域的輸入轉換成

的域。

在這項工作中，為了簡單起見，並且為了獲得高度可解釋的結果，我們將定義為小圖像（small images），g是處理小圖形的函數，是大圖像（large images）,f是處理大圖像的函數。函數 Ian Goodfellow最新論文：神經網絡無比脆弱，對抗攻擊重新編程只包括在大圖像的中心繪製,在邊框中繪製θ，而

只是輸出類標籤之間的硬編碼映射。

然而，這個想法更具通用性； Ian Goodfellow最新論文：神經網絡無比脆弱，對抗攻擊重新編程可以是在兩個任務的輸入（輸出）格式之間轉換的任何一致性轉換，並使模型執行對抗性任務。

我們指的是一類攻擊，在這種攻擊中，機器學習算法被重新用於執行一項新的任務，即對抗性重編程（adversarial reprogramming）。我們將θ稱為對抗程序（ adversarial program）。與以往大多數對抗樣本的研究相比，這種擾動的幅度不需要受到限制。這種攻擊不需要使人類察覺不到，或是需要很微妙才被認為是成功的。對抗性重編程的潛在後果包括：從公共服務中竊取計算資源，或將AI驅動的助理改造成間諜機器人或垃圾郵件機器人。

在這篇文章中，我們介紹了對抗性重編程的第一個實例。我們提出一種設計對抗程序的訓練過程，對抗程序將導致神經網絡執行新的任務。在實驗部分，我們演示了針對用於ImageNet數據分類的幾個卷積神經網絡的對抗程序。這些對抗程序將網絡的功能從ImageNet分類改變成：對圖像中的方塊進行計數；對MNIST的數字進行分類，對CIFAR-10圖像進行分類。我們還研究了訓練好的和未訓練的網絡對對抗性重編程的易感性。

方法

我們提出的攻擊場景如下：當執行一個特定任務時，敵人已經獲取了神經網絡的參數，並希望通過使用一個可以加入到網絡輸入中的攻擊程序來操縱網絡的函數，以此來執行一個新的任務。在這裡，我們假設原始的網絡是用來執行ImageNet分類的，但是本文討論的方法是具有可擴展性的。

我們的對抗性程序將作為網絡輸入的附加貢獻。值得注意的是，不像其他大多數對抗性干擾，我們的對抗性程序並不針對單一的圖像。同樣的對抗性程序將應用到所有的圖像中。我們將對抗性程序定義為：