裴健團隊KDD新作:革命性的新方法,準確、一致地解釋深度神經網絡

裴健团队KDD新作:革命性的新方法,准确、一致地解释深度神经网络

雷鋒網 AI 科技評論按:你有沒有想過,深度神經網絡是依據什麼來準確識別有貓的圖片的?隨著深度神經網絡在金融、醫療及自動駕駛等領域的廣泛應用,深度神經網絡無法明確解釋自身決策行為的問題也引起了越來越多的關注。明確解釋深度神經網絡的決策行為,能夠大幅提升各類用戶對深度神經網絡的信任,並顯著降低大規模使用深度神經網絡所帶來的潛在風險,是基於深度神經網絡的人工智能應用成功落地的重要一環。

論文視頻簡介

相關工作

雷鋒網 AI 科技評論近期也有多篇文章從不同角度探討了深度神經網絡的可解釋性。總的來說,現有的三種解釋方法都有各自的問題。

「隱層神經元分析方法」(Hidden Neuron Analysis Methods)

該方法通過分析和可視化神經網絡中隱層神經元的局部特徵來解釋深度神經網絡的行為。以谷歌的研究《谷歌的新CNN特徵可視化方法》及其後續的《可解釋性的基石》為例,這類方法能夠有效提取隱層神經元學到的局部特徵,但無法明確解釋深度神經網絡的整體行為。

「模仿者模型方法」(Mimic Model Methods)

該方法通過訓練一個可解釋的模仿者模型來模仿和解釋深度神經網絡。在輸入相同的前提下,模仿者模型具有與深度神經網絡相似的輸出。因此,有研究人員利用模仿者模型來解釋深度神經網絡。但是,模仿者模型和被模仿的神經網絡並非完全相同。即便兩個模型在某些相同的輸入上具有相似的輸出,其內部的決策機制也可以有很大的區別。因此,模仿者模型無法準確地解釋深度神經網絡。

「局部解釋方法」(Local Interpretation Methods)

該方法首先在輸入實例的鄰域內採樣一組近鄰實例,然後訓練一個線性模型來擬合神經網絡在近鄰實例上的決策輸出,最後使用線性模型的決策特徵來解釋該神經網絡對輸入實例的決策行為。這類方法有兩點問題。首先,因為線性模型與神經網絡並不相同,所以局部解釋方法無法提供準確解釋。其次,由於線性模型的決策特徵依賴於近鄰數據,而通過採樣獲得的近鄰數據具有很強的隨機性,因此這類方法對相似輸入實例的解釋可能非常不一致,對同一輸入實例的多次解釋也有可能不同。

綜上所述,雖然上述方法能夠增進我們對於神經網絡工作機制的理解,但是它們無法對深度神經網絡的行為提供準確、一致的解釋。

我們為什麼需要準確、一致的解釋?

首先,如果一個解釋是不準確的,我們就無法確定解釋結果和模型的真實決策是否相符,解釋本身就是不可信的。其次,如果對於多個相似實例的解釋不一致,我們將不可避免地遇到多個解釋自相矛盾的情況,解釋的有效性也會因此受到質疑。

一種革命性的新方法

準確、一致的解釋符合人類認知的客觀規律。但是,對於錯綜複雜的深度神經網絡,我們能否找到準確、一致的解釋方法呢?

西蒙弗雷澤大學(Simon Fraser University,SFU)計算科學學院裴健教授團隊的論文《Exact and Consistent Interpretation for Piecewise Linear Neural Networks: A Closed Form Solution》(圖 1)不僅為這個問題給出了肯定的答案,更給出了一種形式優美的解析解,在大家關注的模型解釋性的多個方面都取得了出色的表現。

裴健团队KDD新作:革命性的新方法,准确、一致地解释深度神经网络

圖 1: 論文標題及作者列表

雷鋒網 AI 科技評論把論文的主要內容介紹如下。

這篇論文研究了以分段線性函數為激活函數的分段線性神經網絡(Piecewise Linear Neural Network, PLNN)。分段線性函數在不同的定義域區間內對應不同的線性函數。經典的 MaxOut 、ReLU 以及 ReLU 的一些變體都是分段線性函數。從微分學的角度來看,只要分段數目足夠多,連續光滑的 sigmoid 、tanh 等激活函數也都可以用分段線性函數來無限逼近。

與現有的規範做法一樣,該論文通過求解一個分段線性神經網絡 N的決策特徵來解釋N的決策行為。但與現有方法大為不同的是,論文對N的解釋具有如下兩個獨特的優點:

1. 準確性(Exactness):該論文構造了一個具有簡潔解析形式的新模型M

,並證明了MN在數學上等價。因此,M的決策特徵能夠準確描述N的真實決策行為。

2. 一致性(Consistency):該論文證明了M是一個分段線性函數,並以解析形式給出了M在其定義域中的各個分段區間,以及M在每個區間上的線性決策函數。因為在相同分段區間中的所有輸入實例共享同一個線性決策函數的決策特徵,所以由模型M對這些輸入實例所提供的解釋是完全一致的。

OpenBox - 通向準確性和一致性的金鑰匙

該論文的作者們提出了全新的 OpenBox 方法對分段線性神經網絡(PLNN)的決策行為提供準確、一致的解釋。「OpenBox」 這個名字也很貼切地描述了作者們使用簡潔的解析方法「打開」深度神經網絡這個「黑盒子」的過程。

OpenBox 方法適用於所有 PLNN。本文將用以 PReLU 為激活函數的 PLNN 為例子詳細介紹 OpenBox 方法的技術要點。

1. 對單個輸入實例的準確解釋方法

裴健团队KDD新作:革命性的新方法,准确、一致地解释深度神经网络

圖 2:隱層神經元的激活狀態(status)

如圖 2 所示,對於以 PReLU 為激活函數的隱層神經元,其激活狀態(status)分為兩種情況:(1)當 status = 0 時,z

z 和輸出a之間的映射關係;(2)當 status = 1 時,z>= 0,該神經元使用右半段的線性函數來建立za的映射。值得注意的是,不論神經元處於何種激活狀態,za之間的映射關係始終是線性的。

裴健团队KDD新作:革命性的新方法,准确、一致地解释深度神经网络

圖 3:一個 PLNN 和其隱層神經元的激活狀態

如圖 3 所示,給定一個輸入實例 x,我們可以將所有隱層神經元的激活狀態按綠色虛線所示的順序排列成一個向量 Conf(x)。這個向量被稱作 PLNN 對輸入實例x配置(Configuration)

由於 PLNN 的網絡結構和參數都是給定的,所有神經元的激活狀態都唯一依賴於輸入實例 x,因此 Conf(x) 由輸入實例x唯一決定。因為x本身是一個給定的常量,所以 Conf(x) 也是一個常量。因此,圖 3 中 PLNN 的每個隱層神經元的運算實質上都是由常量 Conf(x) 所確定的線性運算。因為一系列線性運算的嵌套依然是線性運算,所以在 Conf(x) 為常量的情況下,PLNN 中所有隱藏層的運算整體等價於一個簡單的線性運算Wx+b

綜上所述,對於任意給定的輸入實例 x,整個 PLNN 嚴格等價於如公式 1 所示的線性分類器。其中,二元組 (W,b) 以解析形式準確地給出了該 PLNN 對於輸入實例 x 的決策平面。(注:證明及求解過程請參見原文)

公式 1

顯然,解釋 PLNN 在單個輸入實例上的決策行為並不能很好地解釋 PLNN 的總體行為。下面我們將介紹 OpenBox 如何解釋 PLNN 的總體行為。

2. 對一個分段線性神經網絡的準確、一致解釋方法

作者們發現,在 PLNN 的網絡結構和參數給定的情況下,公式 1 中的線性分類器 F(x)由 Conf(x) 決定。這意味著對於任意兩個不同的輸入實例xx'而言,只要 Conf(x)=Conf(

x'),xx'就共享同一個線性分類器,而且對xx'的解釋也將完全一致。

那麼,輸入實例 xx'需要滿足什麼條件,才能使 Conf(x)=Conf(x') 呢?

裴健团队KDD新作:革命性的新方法,准确、一致地解释深度神经网络

圖 4:在 Conf(x) 給定的情況下,每一個隱層神經元的輸入z所必須滿足的不等式約束

通過進一步推導,作者們發現在 Conf(x) 給定的情況下,每一個隱層神經元的輸入z都必須滿足由該神經元激活狀態所決定的不等式約束。圖 4 給出了當 Conf(x) = [1, 0, 1, 0, 0, 1, 1] 時, PLNN 的所有隱層神經元的輸入 z 必須滿足的一組線性不等式約束

因為每個隱層神經元的輸入 z都是輸入實例x的線性函數,所以這組關於輸入z的線性不等式約束實質上是對輸入實例x的一組線性不等式約束。我們將這組線性不等式約束的集合定義為P

很顯然,所有滿足 P中線性不等式約束的輸入實例

x都具有相同的 Conf(x),因此這些實例共享同一個線性分類器,並具有完全一致的解釋。

實質上,P中的每一個不等式都定義了一個線性邊界,所有線性邊界一起組成了一個凸多面體(Convex Polytope,CP)。在凸多面體中的所有輸入實例都滿足P中的所有不等式,因此這些輸入實例x都具有相同的 Conf(x),並且共享同一個線性分類器。我們把這個存在於局部區域的凸多面體和它所對應的線性分類器統稱為局部線性分類器(Local Linear Classifier,LLC)

對於任意給定的 PLNN,不同的隱層神經元激活狀態對應著不同的 Conf(x),而每一個 Conf(x) 都確定了一個局部線性分類器。因此,一個 PLNN 嚴格等價於一組局部線性分類器。我們把這組局部線性分類器的集合標記為M

,並將其作為 PLNN 的解釋模型。

因為 M和 PLNN 是等價的,而且同一個凸多面體中的所有實例都共享同樣的解釋,所以由M所得到的解釋是準確且一致的。

給定一個輸入實例 x,我們如何使用M來解釋 PLNN 對x的決策行為呢?

首先,我們從 M中找到x所屬的局部線性分類器。然後,我們解析出該局部線性分類器的決策特徵(Decision Feature)以及其凸多面體的邊界特徵(Polytope Boundary Feature,PBF)。最後,我們使用決策特徵來解釋 PLNN 對x的決策行為,並使用邊界特徵來解釋x被當前局部線性分類器包含的原因。

論文還對計算

M的時間複雜度進行了嚴格的理論分析和證明。對於n個不同的輸入實例,若每個輸入實例的特徵維數為d,OpenBox 解釋所有輸入實例的時間複雜度僅為 O(nd)。因為特徵維數d通常被看作常量,所以 OpenBox 的時間複雜度是線性的。

實驗部分

作者們把 OpenBox 和目前最頂級的解釋方法 LIME[Ribeiro et al. KDD 2016]做了實驗對比。實驗重點關注以下五個問題:

1. 局部線性分類器長什麼樣?

2. LIME 和 OpenBox 給出的解釋是否準確、一致?

3. 局部線性分類器的決策特徵易於理解嗎?如果附加非負、稀疏約束,能繼續提升這些決策特徵的語義特性嗎?

4. 如何解釋局部線性分類器的邊界特徵(PBF)?

5. 利用 OpenBox 提供的解釋,我們能否構造新樣本來欺騙 PLNN?能否查出 PLNN 在某些樣本上做出錯誤決策的原因?

實驗一:合成數據集可視化局部線性分類器

如圖 5(a) 所示,作者們通過二維歐式空間中的均勻採樣生成了一個包含 20,000 個實例的合成數據集 SYN。其中,紅色和藍色樣本點分別代表正例和負例。

裴健团队KDD新作:革命性的新方法,准确、一致地解释深度神经网络

圖 5:OpenBox 在合成數據集 SYN 上的實驗結果

由於實驗目標是可視化模型 M中的所有局部線性分類器,整個實驗過程無需使用測試數據,因此作者們使用 SYN 中的所有樣本來訓練 PLNN。圖 5(b) 顯示了 PLNN 在 SYN 上的預測結果。

圖 5(c) 可視化了模型 M中每一個局部線性分類器對應的凸多面體。 作者們用相同的顏色標出了屬於同一個局部線性分類器的所有實例,發現屬於相同局部線性分類器的實例都包含於同一個凸多面體(在二維空間中表現為凸多邊形)。顯然,這個結果完全符合論文的理論分析。

圖 5(d) 展示了構成模型 M的決策邊界的所有局部線性分類器。圖中的每一條實線都表示一個局部線性分類器的決策邊界,這些局部線性分類器共同構成了模型M的總體決策邊界。對比圖 5(b) 和 5(d) 可以發現模型M的總體決策邊界和 PLNN 的決策邊界完全一致。這個結果證實了模型M和 PLNN 之間的等價性。

實驗二:FMNIST 數據集驗證解釋的準確性和一致性

該實驗在 FMNIST 數據集上對比了 LIME 和 OpenBox(模型M)所提供解釋的準確性和一致性。

裴健团队KDD新作:革命性的新方法,准确、一致地解释深度神经网络

圖 6: OpenBox 和 LIME 在 FMNIST-2 數據集上的準確性(Exactness)和一致性(Consistency)

首先,作者們通過比較 LIME、OpenBox(模型 M)和 PLNN 對 FMNIST-2 數據集中 600 個測試樣本的決策輸出來衡量 LIME 和 OpenBox 各自解釋模型的準確性。如圖 6(a) 所示,LIME 的決策輸出和 PLNN 的決策輸出有著很大不同,這說明 LIME 的解釋模型和 PLNN 非常不同,因此它無法準確解釋 PLNN 的決策行為。相比之下,OpenBox 計算出的模型M和 PLNN 對於所有測試樣本的決策輸出完全相同,這說明模型 M 等價於 PLNN,因此它能夠準確地解釋 PLNN 的決策行為。

隨後,作者們使用輸入實例 x和其最近鄰實例x'的解釋結果的餘弦相似度(Cosine Similarity)來衡量 LIME 和 OpenBox 所提供解釋的一致性。餘弦相似度越高,解釋模型所提供解釋的一致性就越高。如圖 6(b) 所示,由於模型M對同一凸多面體內的實例提供完全相同的解釋,OpenBox 的餘弦相似度幾乎總保持為 1。但是最近鄰實例x'與 輸入實例x並不總是屬於同一個凸多面體,因此 OpenBox 在某些實例上的餘弦相似度小於 1。相比之下,LIME 的餘弦相似度遠低於 OpenBox,這說明 OpenBox 所提供解釋的一致性遠高於 LIME。

實驗三:OpenBox 提取的決策特徵具有人類可理解的強語義特點

除了準確性和一致性,一個好的解釋還必須具有人類可理解的強語義特點。在本實驗中,作者們將 OpenBox 在 FMNIST-1 數據集上提取的決策特徵可視化,發現這些特徵具有易於理解的強語義特點。

裴健团队KDD新作:革命性的新方法,准确、一致地解释深度神经网络

圖 7: OpenBox 和邏輯迴歸(Logistic Regression,LR)在 FMNIST-1 數據集上的決策特徵(Decision Feature,DF)

圖 7(a) 和 7(f) 給出了 FMNIST-1 中的兩類圖像的平均圖(Average Image)。其中,圖 7(a) 對應正例樣本

短靴(Ankle Boot),圖 7(f) 對應負例樣本包包(Bag)

作者們訓練了多個羅輯迴歸模型(Logistic Regression,LR)作為基線(Baseline)。其中,LR 模型是以短靴為正樣本訓練得到的,LR-F 模型是以包包為正樣本訓練得到的,LR-NS 和 LR-NSF 分別是在 LR 和 LR-F 的基礎上附加稀疏、非負約束得到的。此外,作者們還訓練了兩個 PLNN 模型作為 OpenBox 的解釋對象。其中,PLNN 是以短靴為正樣本訓練得到的,PLNN-NS 是在 PLNN 的基礎上附加稀疏、非負約束得到的。

圖 7 給出了上述所有模型的決策特徵,其中 PLNN 和 PLNN-NS 的決策特徵由 OpenBox 提供。很明顯,PLNN 的決策特徵與 LR 和LR-F 的決策特徵具有極為相似語義。將這些決策特徵與圖 7(a) 和 7(f) 中的平均圖仔細對比可以發現,這些決策特徵準確地描述了短靴和包包之間的差別。更有趣的是,PLNN 的決策特徵比 LR 和 LR-F 的決策特徵包含了更多細節信息。這是因為 PLNN 的每一個局部線性分類器僅需區分包含於凸多面體中的一小部分樣本,所以 PLNN 能夠使用大量的局部線性分類器捕捉更多細節特徵。然而,LR 和 LR-F 只能使用一個線性平面劃分所有正負例樣本,因此它們只能捕捉大量樣本的平均差異。因為 PLNN 捕捉到了更多細節特徵,所以它取得了比 LR 和 LR-F 好得多的分類精度。

通過對比 PLNN-NS,LR-NS 和 LR-NSF 的決策特徵,我們發現非負、稀疏約束對於增強 PLNN-NS 決策特徵的語義同樣有效。我們還觀察到 PLNN-NS 捕獲了比 LR-NS 和 LR-NSF 多得多的細節特徵,也因此取得了相對較高的分類精度。

實驗四:OpenBox 提取的邊界特徵也具有很強的語義特性

關於 OpenBox 所提取的局部線性分類器,不僅其決策特徵具有很強的語義特點,其凸多面體的邊界特徵也具有很強的語義特性。

裴健团队KDD新作:革命性的新方法,准确、一致地解释深度神经网络

圖 8: OpenBox 在 FMNIST-1 數據集上提取的邊界特徵(Polytope Boundary Feature,PBF)

在本實驗中,作者們在 FMNIST-1 上訓練了一個 PLNN,並用 OpenBox 解析出該 PLNN 的三個局部線性分類器對應的凸多面體。圖 8(a)-(d) 給出了這些凸多面體的邊界特徵,它們分別對應了{包包,短靴,包包,包包}。圖 8(e) 給出了定義這些邊界特徵的線性不等式,以及其對應的凸多面體中所包含的各類別樣本數量。關於圖 8(e) 中的線性不等式,「/」代表該不等式定義的邊界為無效邊界;「> 0」代表凸多面體內的樣本與該不等式的邊界特徵具有很強的相關性;「

以圖 8(e) 中的第一個凸多面體為例,由其線性不等式的狀態可知該凸多面體所包含的樣本與圖 8(b)-(c) 中短靴和包包的邊界特徵有強相關性。因此,第一個凸多面體中包含了大量的短靴和包包。類似的,對圖 8(e) 中的第二個凸多面體而言,其中的樣本僅與短靴的邊界特徵呈正相關,因此該凸多面體中的樣本僅有短靴而沒有包包。通過上述實驗結果不難看出,OpenBox 提取的邊界特徵具有很強的語義特性

除了上述精彩實驗,作者們還利用 OpenBox 提供的解釋來構造欺騙 PLNN 的新樣本,以及查找 PLNN 在某些樣本上做出錯誤決策的原因。在這些有趣的任務上,論文中的實驗也給出了明顯優於現有方法的結果。

結論

作者們通過證明分段線性神經網絡嚴格等價於一組局部線性分類器,以簡潔的解析形式給出了一種準確、一致且高效的神經網絡解釋方法——OpenBox。大量實驗結果表明,OpenBox 不僅可以準確、一致地描述分段線性神經網絡的總體行為,還能夠對分段線性神經網絡進行有效的欺騙攻擊和錯誤查找。作者們談到,他們將繼續拓展這一方法,使其能夠有效地解釋使用連續、光滑激活函數(如:sigmoid、tanh)的深度神經網絡。

詳細內容請參見原論文:https://arxiv.org/abs/1802.06259

本文協助撰寫:論文第一作者,褚令洋博士。

更多會議內容報道、優秀論文解讀,請繼續關注雷鋒網AI 科技評論

參考文獻

[1] Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. "Why should i trust you?: Explaining the predictions of any classifier." Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2016.


分享到:


相關文章: