機器學習筆記:L2正則化的新視角

點擊上方關注,All in AI中國

機器學習筆記:L2正則化的新視角

深度神經網絡已被證明易受對抗性樣本的影響:到目前為止所有測試的模型都可以通過小的圖像擾動顯著改變其分類。以下預測是由最先進的網絡訓練來識別名人:

機器學習筆記:L2正則化的新視角

這個結果令人費解,原因有兩個。首先,它挑戰了一種共同的信念,即對新穎數據的良好推廣和對小擾動的魯棒性是齊頭並進的。其次,它構成了對現實世界應用的潛在威脅。例如,麻省理工學院的研究人員最近構建了三維物體,這些物體在廣泛的角度和視點分佈下容易被錯誤分類。因此,理解這種現象並提高深度神經網絡的魯棒性已成為一個重要的研究目標。

作者已經探索了幾種方法,詳細描述了這種現象,並提供了一些理論分析。比如嘗試設計更強大的架構或者在評估期間檢測對抗性樣本,對抗性訓練也被引入作為一種懲罰對抗方向的新的正則化技術。不幸的是,這個問題基本上沒有得到解決。面對這一困難,我們建議從基本面出發:首先關注線性分類,然後逐步提高複雜度。

玩具問題

在線性分類中,對抗性擾動通常被理解為高維度的點積的性質。一種普遍的直覺是:“對於高維度問題,我們可以對輸入進行許多無窮小的更改,從而使輸出產生一個大的變化”。在這裡,我們挑戰這種直覺,並爭辯表示,當分類邊界靠近數據流形時,存在獨立於圖像空間維度的對抗性的例子。

設置

讓我們從一個最小的玩具問題開始:一個二維圖像空間,其中每個圖像都是a和b的函數。

機器學習筆記:L2正則化的新視角

在這個簡單的圖像空間中,我們定義了兩類圖像......

機器學習筆記:L2正則化的新視角

...可以用無數個線性分類器分開。考慮例如線Lθ

機器學習筆記:L2正則化的新視角

這就帶來了第一個問題:如果所有線性分類器Lθ都可以很好地分離I和J,那麼它們是否都有強大的圖像干擾。

投影和鏡像

考慮類I中的圖像x。在相反類中分類的最接近的圖像是在Lθ上的x的投影圖像:

機器學習筆記:L2正則化的新視角

通過構造,x和xm與邊界處於相同的距離並且以相同的置信水平分類。

機器學習筆記:L2正則化的新視角

回到我們的玩具問題,我們現在可以繪製圖像x及其鏡像xm作為θ的函數。

機器學習筆記:L2正則化的新視角

我們看到x和xm之間的距離取決於角度θ。 這兩個臨界案例特別令人感興趣。

機器學習筆記:L2正則化的新視角

這就帶來了第二個問題:如果Lθ強烈傾斜時存在對抗性的例子,那麼Lθ在實踐中是什麼傾斜?

過度擬合和L2正則化

我們的工作假設是由標準線性學習算法(例如支持向量機(SVM)或邏輯迴歸)定義的分類邊界通過過度擬合訓練集中的噪聲數據點而傾斜。 Xu等人的理論結果支持了這一假設,將魯棒性與SVM中的正則化相關聯。它也可以通過實驗進行測試:旨在減少過度擬合(如L2正則化)的技術,從而減輕對抗性的樣本現象。

例如,考慮包含一個噪聲數據點p的訓練集。

機器學習筆記:L2正則化的新視角

如果我們在此訓練集上訓練SVM或邏輯迴歸模型,我們會觀察到兩種可能的行為。

機器學習筆記:L2正則化的新視角

在這一點上,人們可能會合理地想知道,位於二維圖像空間中的一維數據流形與高維自然圖像有什麼關係?

線性分類中的對抗性例子

在下面,我們證明了前一個玩具問題中引入的兩個主要思想在一般情況下仍然有效:當分類邊界靠近數據流形時存在對抗性的例子,而L2正則化控制了邊界的傾斜角度。

擴展的損失函數

讓我們從一個簡單的觀察開始:在訓練期間,權重向量的規範作為損失函數的縮放參數。

設置

設I和J是兩類圖像,C是在Rd中定義線性分類器的超平面邊界。C是由一個法向權向量w和一個偏壓向量b指定的,對於一個圖像x在Rd中,我們將x的原始分數通過C表示為:

機器學習筆記:L2正則化的新視角

原始分數可以看作是x與由C定義的分類邊界之間的符號距離。特別是:

機器學習筆記:L2正則化的新視角

現在,考慮n對(x,y)的訓練集T,其中x是圖像,如果x∈I| 1,則x = { - 1,如果x∈J}是其標籤。 我們對以下數量在T上的分佈感興趣:

機器學習筆記:L2正則化的新視角

這導致分類器C的經驗風險R(w,b)的概念被定義為訓練集T上的平均罰分:

機器學習筆記:L2正則化的新視角

通常,學習線性分類器包括找到權重向量w和最小化R(w,b)的偏差,用於良好選擇的損失函數f。

在二進制分類中,三個值得注意的損失函數是:

機器學習筆記:L2正則化的新視角

對於0-1指標函數,經驗風險就是T上的誤差率。從某種意義上說,這是最優損失函數,因為最小化誤差率通常是實踐中的期望目標。不幸的是,它與梯度下降不相容(沒有梯度下降:導數在任何地方都為零)。

通過用嚴格減少的懲罰替換錯誤分類數據上的單位罰分,在鉸鏈損失(在SVM中使用)和softplus損(在邏輯迴歸中使用)中克服了這種限制。 請注意,鉸鏈損失和softplus損失也會損害邊界附近的一些正確分類的數據,從而有效地實施安全邊際。

縮放參數∥w∥之前忽略的一個重點是符號距離s(x)按權重向量的範數縮放。 如果d(x)是x和C之間的實際有符號歐幾里德距離,我們有:

機器學習筆記:L2正則化的新視角

因此,範數∥w∥可以解釋為經驗風險表達中損失函數的縮放參數:

機器學習筆記:L2正則化的新視角

讓我們定義縮放損失函數f∥w∥:z→f(∥w∥×z)。我們觀察到0-1指標函數對重新縮放是不變的,而鉸鏈損失和softplus損失受到強烈影響。

機器學習筆記:L2正則化的新視角

值得注意的是,對於縮放參數的極值,鉸鏈損耗和softplus損失表現相同。

機器學習筆記:L2正則化的新視角

更準確地說,兩種損失都滿足:

機器學習筆記:L2正則化的新視角

為方便起見,我們將錯誤分類的數據命名為:

機器學習筆記:L2正則化的新視角

然後我們可以將經驗風險寫成:

機器學習筆記:L2正則化的新視角

該表達式包含一個我們稱之為誤差距離的術語:

機器學習筆記:L2正則化的新視角

它是正的,可以解釋為每個訓練樣本被C錯誤分類的平均距離(對正確分類的數據的貢獻為零)。 它與訓練誤差有關,儘管不完全等同

最後我們有:

機器學習筆記:L2正則化的新視角

換句話說,當∥w∥很大時,最小化鉸鏈損失或softplus損失的經驗風險等同於最小化誤差距離,這類似於最小化訓練集上的誤差率。

機器學習筆記:L2正則化的新視角

更確切地說,兩種損失都滿足:

機器學習筆記:L2正則化的新視角

對於某些正值α和β。

然後我們可以將經驗風險寫為:

機器學習筆記:L2正則化的新視角

該表達式包含一個我們稱之為對抗性距離的術語:

機器學習筆記:L2正則化的新視角

它是T中的圖像與分類邊界C之間的平均距離(對於錯誤分類的圖像具有負貢獻)。它可以被視為對抗性擾動的魯棒性的度量:當dadv高時,錯誤分類的圖像的數量是有限的,並且正確分類的圖像與C相差甚遠。

最後我們有:

機器學習筆記:L2正則化的新視角

換句話說,當∥w∥較小時,最小化鉸鏈損失或軟件損失的經驗風險等同於最大化對抗距離,這可以解釋為最小化對抗性示例的現象。

結束語

在實踐中,可以通過在經驗風險中加入正則化項來控制∥w∥的值,從而產生正則化損失:

機器學習筆記:L2正則化的新視角

一個小的正則化參數λ讓∥w∥不受限制地增長,而較大的λ則鼓勵∥w∥收縮。

對抗距離和傾斜角度

上一節中出現了對抗性距離,作為對抗性擾動的魯棒性的度量。 相當方便地,它可以表示為單個參數的函數:分類邊界和最近的質心分類器之間的角度。

如果TI和TJ分別對I和J中的元素有T的限制,我們可以寫:

機器學習筆記:L2正則化的新視角

如果TI和TJ是平衡的(n = 2nI = 2nJ)

機器學習筆記:L2正則化的新視角

如果i和j分別是TI和TJ的質心:

機器學習筆記:L2正則化的新視角

我們現在介紹最近的質心分類器,它具有單位法向量z ^ =(j-i)/∥j-i∥

機器學習筆記:L2正則化的新視角

最後,我們將包含w ^和z ^的平面稱為C的傾斜平面,我們稱之為w ^和z ^之間的角度θ為C的傾斜角度:

機器學習筆記:L2正則化的新視角

該等式可以在傾斜平面中幾何解釋:

機器學習筆記:L2正則化的新視角

在給定的訓練集T上,兩個質心∥j-i∥之間的距離是固定的,dadv僅取決於傾斜角θ。 以下兩點意見:

·最近的質心分類器使對抗性示例現象最小化。

·當θ→π/ 2時,對抗性示例可以是任意強的(如玩具問題部分中的分類器Lθ的情況)。

示例:MNIST上的SVM

我們現在說明先前對MNIST數字的二進制分類的考慮。 對於每對可能的數字類,我們使用每類3000個圖像的訓練集訓練多個SVM模型(w,b)用於正則化參數λ∈[10-1,107]。

我們首先繪製訓練數據和邊界之間的距離yd(x)的分佈作為正則化參數λ(灰色直方圖)的函數。 在每個模型的收斂(藍線)之後,我們將損失函數f∥w∥疊加。

機器學習筆記:L2正則化的新視角

我們看到鉸鏈損失的縮放對獲得的模型有明顯的影響。 不幸的是,最小化訓練誤差和最大化對抗距離是相互矛盾的目標:當λ很小時,errtrain最小化,而當λ很大時,dadv最大化。 注意,對於中等水平的正規化λoptimal,測試誤差最小化。 當λλoptimal時,分類器未裝配。

為了更好地理解兩個目標是如何平衡的,我們可以在不同的視角下查看訓練數據。我們首先計算最近的質心分類器的單位權重向量z ^。 然後對於每個SVM模型(w,b),我們計算單位向量n ^,使得(z ^,n ^)是w.7的傾斜平面的標準正交基礎。最後,我們將訓練數據投影到(z^, n^):

機器學習筆記:L2正則化的新視角

水平方向穿過兩個質心,並且選擇垂直方向使得屬於平面(超平面邊界然後顯示為線)。另請注意,由於(z ^,n ^)是標準正交基礎,因此該平面中的距離是實際像素距離。為了理解當λ變化時數據點似乎在四處移動的原因,需要想象傾斜平面旋轉z ^ 784 -維輸入空間(因此顯示784 -維訓練數據的不同部分的每個值)。

對於高正則化水平,模型與最近的質心分類器平行,並且最大化對抗距離。隨著λ減小,分類邊界通過向低方差方向傾斜來改善訓練數據的擬合。最終,少量錯誤分類的訓練樣本被過度擬合,導致非常小的對抗性距離和難以解釋的權重向量。

最後,我們可以看到每個模型的兩個代表性圖像x,y(每個類一個)和它們的鏡像xm,ym。它們在w的傾斜平面上的投影給出了線性分類中對抗性示例現象的非常直觀的圖像:

機器學習筆記:L2正則化的新視角

當傾斜角接近π/ 2時,該模型對強對抗性實例(|| xm-x ||→0和|| ym-y ||→0)敏感。這是強過度擬合的症狀,是否發生取決於將兩個類別分開的難度(比較例如7s與9s的分類以及0s和1s的分類)。

神經網絡中的對抗性例子

由於對抗距離和傾斜角度之間的等效性,線性情況足夠簡單,可以在平面中顯示。然而,在神經網絡中,類邊界不是平坦的,並且對抗距離不能簡化為單個參數。儘管如此,與線性案例仍有一些相似之處。

第一步:雙層二進制網絡

令N為具有單個輸出的2層網絡,其在Rd中定義非線性二進制分類器。第一層N由權重矩陣W1和偏置矢量b1指定,第二層N由權重向量W2和偏置b2指定。我們假設兩個層由整流線性單元的層φ分開,應用函數z→max(0,z)元素。對於Rd中的圖像x,我們將x到N的原始分數稱為:

機器學習筆記:L2正則化的新視角

與線性情況類似,可以寫出損失函數f對T的經驗風險:

機器學習筆記:L2正則化的新視角

並且訓練N在於找到W1,b1,W2和b2,其針對精心選擇的f最小化R.

φ是分段線性的並且在每個圖像x周圍存在局部線性區域Lx,其中:

機器學習筆記:L2正則化的新視角

其中Wx1和bx1是通過將W1和b1中的某些行歸零來獲得的.8在Lx中,原始分數可以寫成:

機器學習筆記:L2正則化的新視角

這可以看作是局部線性分類器Cx的原始分數,然後我們對線性情況的分析幾乎不需要修改就適用。首先,我們觀察到s(x) 是一個縮放的距離。如果d(x)是x和Cx之間的實際有符號歐幾里德距離,那麼:

機器學習筆記:L2正則化的新視角

然後可以將範數∥W2Wx1∥解釋為損失函數的縮放參數(縮放現在是局部的,取決於x)。同時控制所有局部縮放的一種簡單方法是將L2正則項添加到獨立地作用於規範∥W1∥和∥W2∥的經驗風險中(記住Wx1中的權重是W1中權重的子集)。對於梯度下降,這相當於在每次迭代時衰減權重W1和W2。更準確地說,對於學習率η和衰減因子λ,權重衰減更新是:

機器學習筆記:L2正則化的新視角

·利用小的衰減因子λ,允許縮放參數∥W2Wx1∥不受限制地增長,並且損失僅懲罰錯誤分類的數據。最小化經驗風險等同於最小化訓練集上的誤差。

·隨著衰減因子λ的增加,縮放參數∥W2Wx1∥減小,並且損失開始懲罰越來越多正確分類的數據,使其進一步遠離邊界。在這種情況下,L2權重衰減可被視為對抗訓練的一種形式。

第二步:一般案例

先前的分析可以推廣到更多層甚至非分段線性激活函數:

機器學習筆記:L2正則化的新視角

其中∇xs是x上原始分數的梯度,d(x)是x與網絡定義的邊界之間的距離的線性近似。 規範∥∇xs∥

然後構成損失函數的縮放參數,其可以通過權重衰減來控制。

這個想法也可以擴展到二進制分類之外。 在多類情況下,原始分數變為向量,其元素稱為logits。 每個logit si(x),然後通過應用softmax函數將其轉換為概率pi(x):

機器學習筆記:L2正則化的新視角

對於圖像/標籤對(x,y),與正確類相關聯的概率是py(x)。 對數似然丟失函數通過將以下懲罰歸因於(x,y)來鼓勵它接近1:

機器學習筆記:L2正則化的新視角

現在,不同的權重衰減會影響logits的縮放,有效地充當softmax函數的溫度參數。當權重衰減非常低時,生成的概率分佈接近於單熱編碼(py(x)≈0或1)並且只有錯誤分類的數據產生非零罰分。然而,隨著權重衰減的增加,產生的概率分佈變得更平滑並且正確分類的數據開始參與訓練,從而防止過度擬合。

在實踐中,許多觀察結果表明現代深度網絡規範不足:

它們通常校準不良併產生過度自信的預測。

它們通常會收斂到零訓練誤差,即使是隨機標記數據。

它們通常容易受到小幅度的線性攻擊。

示例:MNIST上的LeNet

是否有可能通過僅使用權重衰減來規範神經網絡以抵抗對抗性的例子?這個想法很簡單,之前已經考慮過了:Goodfellow等。觀察到線性情況下對抗訓練“有點類似於L1正則化”。然而,作者報告說,當訓練MNIST上的maxout網絡時,L1權重衰減係數為0.0025“太大,導致模型在訓練集上遇到超過5%的誤差。較小的權重衰減係數允許成功的訓練,但沒有給予正則化的好處。“我們再次對這個想法進行測試,我們的觀察結果更加微妙。如果使用高權重衰減顯然不是靈丹妙藥,我們發現它確實有助於減少對抗性的例子現象,至少在簡單的設置中如此。

在MNIST上考慮LeNet(10級問題)。我們使用以下架構的基線MatConvNet實現:

機器學習筆記:L2正則化的新視角

我們訓練該網絡的一個版本具有10-4的低權重衰減和一個具有10-1的高權重衰減的版本(我們分別稱為LeNetlow和LeNethigh兩個版本)。 我們保留所有其他參數:我們訓練50時期,使用批量大小為300,學習率為0.0005,動量為0.9。

我們可以做幾點觀察。 首先,讓我們繪製兩個網絡的訓練和測試誤差。

機器學習筆記:L2正則化的新視角

我們看到LeNethig表現略好於LeNetlow(最終測試誤差為1.2%對1.6%)。

我們還可以檢查已經學過的權重。 下面,我們計算它們的均方根值(RMS)並顯示每個卷積層的隨機濾波器選擇。

機器學習筆記:L2正則化的新視角

正如預期的那樣,通過較高權重衰減學習的權重具有低得多的RMS。 LeNethigh的濾波器也比LeNetlow的濾波器更平滑(參見Conv1和Conv2中存在的乾淨邊緣檢測器),並且它們的幅度在每個卷積層內變化更大(參見均勻灰色濾波器的存在)

最後,讓我們將兩個網絡提交給相同的視覺評估:對於每個數字的隨機實例,我們生成一個高置信度的對抗性示例,目標是執行標籤的循環置換0→1,1→2 ...,9→0。 具體來說,每個對抗性的例子都是通過對所需標籤的概率進行梯度上升來生成的,直到達到0.95的中值.10我們在10個原始圖像下面顯示OI及其對應的對抗性示例AE和兩個網絡的對抗性擾動Pert。

機器學習筆記:L2正則化的新視角

我們看到LeNethigh比LeNetlow更不容易受到對抗性的影響:對抗性擾動具有更高的L2準則,對人類觀察者來說更有意義。

“前進”的想法

儘管它已經產生了多年的廣泛興趣,儘管它在理論和實踐中都對機器學習領域具有重要意義,但迄今為止,對抗性的例子現象仍然保留了很多其中的吸引力。我們的主要目標是在線性情況下提供清晰直觀的現象圖,希望能夠成為向前發展的堅實基礎。順便提一下,我們發現L2權重衰減比先前在MNIST上的小神經網絡中所懷疑的更重要。

不幸的是,隨著更復雜數據集的更深層次模型,故事變得更加複雜。根據我們的經驗,模型的非線性越多,權重衰減似乎就越有幫助。這種限制可能是膚淺的,也許值得探討這裡介紹的想法(例如,我們應該更多地關注在訓練期間縮放logits)。或者,深度網絡的高度非線性可能構成L2正則化實現的一階對抗訓練類型的基本障礙。我們的感覺是,一個真正令人滿意的問題解決方案可能需要在深度學習中有深刻的新想法。

原文鏈接:https://thomas-tanay.github.io/post--L2-regularization/

機器學習筆記:L2正則化的新視角


分享到:


相關文章: