基於可解釋性以及細粒度的可視化解釋卷積神經網絡

研究目的

卷積神經網絡(CNN)已經被證明在許多視覺基準測試上產生了最先進的結果,儘管如此,CNN 的黑盒特性使得它在安全度要求高的領域未能被廣泛應用。本文基於上述問題,其主要工作是 探究網絡內部的運行機制,以進行細粒度的解釋網絡模型。 同時這篇文章的一個貢獻是 提出了一種新的對抗防禦技術 ,它選擇性地過濾優化中的梯度,使得解釋性更為合理。

論文核心:模型預測的可解釋性

基於擾動的視覺解釋

擾動的視覺可解釋性可以被定義為:

a) 保留解釋: 為了保存模型的原始輸出,圖像中必須保留的最小區域。

b) 刪除解釋: 為了改變模型的原始輸出,圖像中必須刪除的最小區域。

這裡假定一個 CNN 可以根據給出的輸入圖像

基於可解釋性以及細粒度的可視化解釋卷積神經網絡

得到

基於可解釋性以及細粒度的可視化解釋卷積神經網絡

。 給定一個輸入圖像 x,通過移除與目標類 相關或不相關的像素點以得到解釋圖 ,由於無法在不替換信息的情況下刪除信息,而且整個圖像的生成過程是透明的,因此必須使用近似刪除操作符,一種常見的做法是通過 Ф 操作來計算圖像 x 和參考圖像之間的加權平均:

其中

基於可解釋性以及細粒度的可視化解釋卷積神經網絡

, 參考圖像 r 的常見選擇是常數(如 0)、原始圖像的模糊版本、高斯噪聲或者生成模型的採樣引用。本文使用 0 值圖像作為參考圖像。這個操作將會產生可視化解釋,因為不相關的像素被置為 0 而沒有其他像素結構來替代。操作過程如下圖所示。相對於模糊版本的 r,0 值圖像攜帶的信息少,將會導致模型預測結果具有較高的熵。

基於可解釋性以及細粒度的可視化解釋卷積神經網絡


此外需要一個相似性度量矩陣 來度量對於目標類 ,生成的解釋圖像的模型輸出 和原始圖像的模型輸出 之間的一致性。 如果解釋圖保存了目標類的輸出,相似性應該小;如果解釋圖計劃明顯的降低目標類的概率,相似性應該大。典型的度量選擇為把類別 作為硬目標的交叉熵或者目標類別 的負的 softmax 分數。

當 r=0 時,保留解釋可以被定義為:

基於可解釋性以及細粒度的可視化解釋卷積神經網絡

同時可以定義刪除解釋:

基於可解釋性以及細粒度的可視化解釋卷積神經網絡

基於可解釋性以及細粒度的可視化解釋卷積神經網絡


上圖為對 VGG 使用 deletion / preservation game 進行可視化的結果。 a) 為輸入圖像。 b) 執行公式 (2)(3) 得到的結果,刪除掩碼中的顏色與圖像中的顏色互補。 c) 通過優化得到的可解釋性結果。 d) 在 deletion game 中真實顏色的互補模板。 e) 強調 deletion game 的重要證據的說明。 f) 平均掩碼。

為了求解 (2) 和 (3),使用隨機梯度下降以及初始解釋圖

基於可解釋性以及細粒度的可視化解釋卷積神經網絡

。在設個設置中,初始解釋不包括任何類的證據,優化必須迭代地添加相關的或者不相關的,不支持類 的信息。本文的實驗中,deletion game 產生了最細粒度的解釋,與其他的實驗相比,它通常需要最少的優化迭代,因為從 開始,相對較少的掩碼值被更改。

防禦對抗證據

由於對抗方法和上述基於優化的視覺解釋方法在計算上的相似性,因此在上述實驗中必須保證解釋是基於圖像中存在的真實證據,而不是優化過程中引入的虛假對抗性證據。對於本文的 generation/repression game 尤其如此,因為它們的優化從

基於可解釋性以及細粒度的可視化解釋卷積神經網絡

開始,並迭代的增加信息。

如下圖所示,在沒有防禦的情況下,可以把原始圖像解釋為 limousine,因此必須加上一些約束以防禦對抗性證據,使其正確的解釋為第二行所示情況。

基於可解釋性以及細粒度的可視化解釋卷積神經網絡


本文提出一種新的對抗防禦:CNN 中的一個神經元要想被解釋圖 激活,那麼他必須能被原始圖像 x 激活,這樣就保證瞭解釋圖 是 x 的一個子集。 在原來的優化中增加約束:

基於可解釋性以及細粒度的可視化解釋卷積神經網絡

是網絡中第 l 層的第 i 個神經元在非線性(如 ReLU、sigmoid)計算後的結果。為了求解滿足 (4) 的優化問題,可以在網絡中每個非線性計算之後增加一個額外的計算:

基於可解釋性以及細粒度的可視化解釋卷積神經網絡

通過上述計算在反向傳播梯度的過程中,產生的誤差為:

上述的梯度裁剪法不 增加超參數,在前向傳遞中保持模型的原始結構,同時支持細粒度解釋。

對比實驗

基於可解釋性以及細粒度的可視化解釋卷積神經網絡


使用 deletion game,我們計算了 GoogLeNet 的平均解釋掩碼,並在上圖中與最先進的方法進行了比較。 我們的方法通過刪除目標對象的重要像素來提供最細粒度的解釋。 尤其是解釋 b)、f) 和 g) 較為粗糙,因此為了改變預測結果,它們顯示的區域往往包含了不需要的刪除的背景信息。

我們的方法 FGVis 突出顯示大大部分像素形成了對象的邊緣。 這在其他方法中是 看不到的。 c) 和 d) 的解釋與本文得到的結果最相似。 然而,本文的掩碼計算是為了直接產生解釋圖像,這些解釋是可行的網絡輸入,因此是可驗證的——刪除突出顯示的像素會改變網絡的正確預測。 這種說法對於用 c) 和 d) 方法計算的解釋不一定成立。

總結

本文最大的創新是提出了一種在圖像空間中生成細粒度視覺解釋的方法,使得 CNN 網絡模型的解釋性更為可靠。本文進一步的把解釋圖細化到圖像的像素級,這極大的促進了深度學習在類如自動駕駛、智慧醫療中的應用。

參考文獻

[1] Fong R C , Vedaldi A . [IEEE 2017 IEEE International Conference on Computer Vision (ICCV) - Venice (2017.10.22-2017.10.29)] 2017 IEEE International Conference on Computer Vision (ICCV) - Interpretable Explanations of Black Boxes by Meaningful Perturbation[J]. 2017:3449-3457.


分享到:


相關文章: