深度殘差收縮網絡:深度殘差網絡、注意力機制和軟閾值化的集成

深度殘差網絡(deep residual network, ResNet)是一種非常熱門的深度學習方法,到目前為止,在谷歌學術上的引用量達到了35470次。 深度殘差收縮網絡(deep residual shrinkage network)是ResNet的一種改進,實際上是ResNet、注意力機制和軟閾值化的深度集成 ,在深度神經網絡的內部消除不重要的(或者與噪聲相關的)特徵,加強深度神經網絡從強噪信號中提取有用特徵的能力。以下根據自己的理解,進行一些解釋。

1. 動機

首先,在很多機器學習的任務中,樣本中經常會包含一些噪聲,比如高斯噪聲、pink噪聲、Laplacian噪聲等。更廣義地講,樣本中經常包含著與當前機器學習任務不相關的信息。

舉例來說,在許多情況下,要進行分類的圖片,除了含有與標籤所對應的目標物體,還包含著一些與標籤無關的物體。這些與標籤無關的物體,就可以理解為一種噪聲。這些無關物體所對應的特徵,就是需要被刪除的,從而避免對當前的任務造成影響。或者說,在馬路邊聊天的時候,聊天的聲音裡就可能會混雜車輛的鳴笛聲、車輪聲等等。當對這些含噪的聲音信號進行語音識別的時候,識別效果不可避免地會受到鳴笛聲、車輪聲的影響。這些鳴笛聲、車輪聲所對應的特徵,就應該在深度神經網絡內部被刪除掉,以避免對語音識別的效果造成影響。

然後,在同一個樣本集中,每個樣本所含的噪聲量通常是不一樣的。

例如,當訓練貓狗分類器的時候,對於標籤為“狗”的5張圖像,第1張圖像可能同時包含著狗和老鼠,第2張圖像可能同時包含著狗和鵝,第3張圖像可能同時包含著狗和雞,第4張圖像可能同時包含著狗和驢,第5張圖像可能同時包含著狗和鴨子。我們在訓練貓狗分類器的時候,就不可避免地會受到老鼠、鵝、雞、驢和鴨子等無關物體的干擾,造成分類準確率下降。如果我們能夠注意到這些無關的老鼠、鵝、雞、驢和鴨子,將它們所對應的特徵刪除掉,就有可能提高貓狗分類器的準確率。

2. 軟閾值化

軟閾值化,從數學上來講,就是將絕對值小於某個閾值的特徵置為零,將絕對值大於這個閾值的特徵朝著零的方向進行收縮。它具體的公式為

深度殘差收縮網絡:深度殘差網絡、注意力機制和軟閾值化的集成

軟閾值化的輸出對於輸入的導數為

深度殘差收縮網絡:深度殘差網絡、注意力機制和軟閾值化的集成

從以上公式可知,軟閾值化的導數要麼是1,要麼是0。這個性質是和ReLU激活函數是相同的。因此,軟閾值化也能夠減小深度學習算法遭遇梯度彌散和梯度爆炸的風險。

在軟閾值化函數中,閾值的設置必須符合兩個的條件: 第一,閾值是正數;第二,閾值不能大於輸入信號的最大值,否則輸出會全部為零。

同時,閾值最好還能符合第三個條件:每個樣本有著自己獨特的閾值。

這是因為,很多樣本的含噪程度經常是不同的。例如,樣本A含噪較少,樣本B含噪較多。那麼,如果是在降噪算法裡面,樣本A就應該採用大一點的閾值,樣本B就應該採用小一點的閾值。在深度神經網絡中,雖然這些特徵和閾值沒有明確的物理意義、,但是道理還是相通的,也就是說每個樣本應該有自己獨特的閾值。

3. 注意力機制

注意力機制在圖像處理領域是很容易理解的。比如說,我們人可以快速掃描視覺全局區域,發現感興趣的目標物體,進而把大部分的注意力集中在感興趣的物體上,以提取更多的細節,同時抑制無關物體的信息。

Squeeze-and-Excitation Network(SENet)是一種較新的注意力機制下的深度學習方法。 在不同的樣本中,不同的特徵通道,在分類任務中的貢獻大小,往往是不同的。SENet採用一個小型的子網絡,獲得一組權重,進而將這組權重與各個通道的特徵分別相乘,以調整各個通道特徵的大小。這個過程,就可以認為是在施加不同大小的注意力在各個特徵通道上。

深度殘差收縮網絡:深度殘差網絡、注意力機制和軟閾值化的集成

在這裡,每一個樣本,都有著自己獨立的一組權重。任意的兩個樣本,它們的權重,都不一樣。在SENet中,獲得權重的具體路徑是,“全局池化→全連接層→ReLU函數→全連接層→Sigmoid函數”。

深度殘差收縮網絡:深度殘差網絡、注意力機制和軟閾值化的集成

深度殘差收縮網絡就借鑑了這個子網絡,來自動設置軟閾值化的閾值。

深度殘差收縮網絡:深度殘差網絡、注意力機制和軟閾值化的集成

通過紅色框內的子網絡,可以獲得一組閾值。這組閾值可以被應用在各個特徵通道上。

在這個子網絡中,首先對輸入特徵圖的所有特徵,求它們的絕對值。然後經過全局均值池化和平均,獲得一個特徵,記為A。在另一條路徑中,全局均值池化之後的特徵圖,被輸入到一個小型的全連接網絡。這個全連接網絡以Sigmoid函數作為最後一層,將輸出歸一化到0和1之間,獲得一個係數,記為α。最終的閾值可以表示為α×A。因此,閾值就是,一個0和1之間的數字×特徵圖的絕對值的平均。 通過這種方式,保證了閾值為正,而且不會太大。

值得指出的是,通過這種方式,不同的樣本就有了不同的閾值。在某種程度上,可以理解成一種特殊的注意力機制:注意到與當前任務無關的特徵,將它們置為零;或者說,注意到與當前任務有關的特徵,將它們保留下來。

4. 通用性

深度殘差收縮網絡事實上是一種通用的數據分類方法。也就是說,深度殘差收縮網絡不僅可以用於基於振動信號的機械故障診斷,而且可以用於很多其他的分類任務,比如圖像和語音。 在圖像分類時,如果圖片中還存在著很多其他的物體,那麼這些物體就可以被理解成“噪聲” ;深度殘差收縮網絡或許能夠藉助注意力機制注意到這些“噪聲”,然後藉助軟閾值化將這些“噪聲”所對應的特徵置為零,從而提高圖像分類的準確率。

在語音識別時,如果是在環境比較嘈雜的環境裡 ,比如在馬路邊聊天的時候,深度殘差收縮網絡也許可以提高語音識別效果,或者給出了一種提高語音識別效果的思路。


分享到:


相關文章: