深入理解卷積神經網絡(CNN)的原理(難，就要廣泛看，多看)

2020-03-16 08:15:51 風信子編程

　　在深度學習領域中，已經經過驗證的成熟算法，目前主要有深度卷積網絡（DNN）和遞歸網絡（RNN），在圖像識別，視頻識別，語音識別領域取得了巨大的成功，正是由於這些成功，能促成了當前深度學習的大熱。與此相對應的，在深度學習研究領域，最熱門的是AutoEncoder、RBM、DBN等產生式網絡架構，但是這些研究領域，雖然論文比較多，但是重量級應用還沒有出現，是否能取得成功還具有不確定性。但是有一些比較初步的跡象表明，這些研究領域還是非常值得期待的。比如AutoEncoder在圖像、視頻搜索領域的應用，RBM對非結構化數據的處理方面，DBN網絡在結合人工智能領域兩大流派連接主義和符號主義，都具有巨大的前景，有理由期待產生重量級成果。我們在後續會對這些網絡逐一進行介紹和實現，除了給出重構後的Theano實現代碼外，還會逐步補充這些算法在實際應用的中的實例，我們會主要將這些算法應用在創業公司數據中，從幾萬家創業公司及投融資數據中，希望能挖掘出哪些公司更可能獲得投資，特定公司更有可能獲得哪家投資機構的投資。

　　卷積神經網絡（CNN），這是深度學習算法應用最成功的領域之一，卷積神經網絡包括一維卷積神經網絡，二維卷積神經網絡以及三維卷積神經網絡。一維卷積神經網絡主要用於序列類的數據處理，二維卷積神經網絡常應用於圖像類文本的識別，三維卷積神經網絡主要應用於醫學圖像以及視頻類數據識別。

　　下面我的學習分為四部分，首先利用一個形象的例子說明電腦是如何識別圖像的，然後在說明什麼是神經網絡，什麼是卷積神經網絡，最後介紹常見的幾種卷積神經網絡。大體的結構就是這樣的。

一：如何幫助神經網絡識別圖像？

　　人類大腦是一非常強大的機器，每秒內能看（捕捉）多張圖，並在意識不到的情況下就完成了對這些圖的處理。但機器並非如此。機器處理圖像的第一步是理解，理解如何表達一張圖像，進而讀取圖片。

　　簡單來說，每個圖像都是一系列特定排序的圖點（像素）。如果你改變像素的順序或顏色，圖像也隨之改變。舉個例子，存儲並讀取一張上面寫著數字 4 的圖像。

　　基本上，機器會把圖像打碎成像素矩陣，存儲每個表示位置像素的顏色碼。在下圖的表示中，數值 1 是白色，256 是最深的綠色（為了簡化，我們示例限制到了一種顏色）。

　　一旦你以這種格式存儲完圖片信息，下一步就是讓神經網絡理解這種排序與模式。（表徵像素的數值是以特定的方式排序的）

　　那麼如何幫助神經網絡識別圖像？

　　假設我們嘗試使用全連接網絡識別圖像，應該如何做？

　　全連接網絡可以通過平化它，把圖像當作一個數組，並把像素值當作預測圖像中數值的特徵。明確地說，讓網絡理解理解下面圖中發生了什麼，非常的艱難。

　　即使人類也很難理解上圖中表達的含義是數字 4。我們完全丟失了像素的空間排列。

我們能做什麼呢？可以嘗試從原圖中提取特徵，從而保留空間排序。

案例一

　　這裡我們使用一個權重乘以初始像素值

　　現在裸眼識別出這是「4」就變得更簡單了。但把它交給全連接網絡之前，還需要平整化（flatten) 它，要讓我們能夠保留圖像的空間排列。

案例二

　　現在我們可以看到，把圖像平整化完全破壞了它的排列。我們需要想出一種方式在沒有平整化的情況下把圖片饋送給網絡，並且還要保留空間排列特徵，也就是需要饋送像素值的 2D/3D 排列。

我們可以嘗試一次採用圖像的兩個像素值，而非一個。這能給網絡很好的洞見，觀察鄰近像素的特徵。既然一次採用兩個像素，那也就需要一次採用兩個權重值了。

　　希望你能注意到圖像從之前的 4 列數值變成了 3 列。因為我們現在一次移用兩個像素（在每次移動中像素被共享），圖像變的更小了。雖然圖像變小了，我們仍能在很大程度上理解這是「4」。而且，要意識到的一個重點是，我們採用的是兩個連貫的水平像素，因此只會考慮水平的排列。

　　這是我們從圖像中提取特徵的一種方式。我們可以看到左邊和中間部分，但右邊部分看起來不那麼清楚。主要是因為兩個問題：

　　1. 圖片角落左邊和右邊是權重相乘一次得到的。

　　2. 左邊仍舊保留，因為權重值高；右邊因為略低的權重，有些丟失。

現在我們有兩個問題，需要兩個解決方案。

案例三

　　遇到這樣的問題是圖像左右兩角只被權重通過一次，我們需要做的是讓網絡像考慮其他像素一樣考慮角落。我們有一個簡單的方法解決這一問題：把零放在權重運動的兩邊。

　　你可以看到通過添加零，來自角落的信息被再訓練。圖像也變得更大。這可被用於我們不想要縮小圖像的情況下。

案例四

　　這裡我們試圖解決的問題是右側角落更小的權重值正在降低像素值，因此使其難以被我們識別。我們所能做的是採取多個權重值並將其結合起來。

　　(1,0.3) 的權重值給了我們一個輸出表格

　　同時表格 (0.1,5) 的權重值也將給我們一個輸出表格。

　　兩張圖像的結合版本將會給我們一個清晰的圖片。因此，我們所做的是簡單地使用多個權重而不是一個，從而再訓練圖像的更多信息。最終結果將是上述兩張圖像的一個結合版本。

案例五

　　我們到現在通過使用權重，試圖把水平像素（horizontal pixel）結合起來。但是大多數情況下我們需要在水平和垂直方向上保持空間佈局。我們採取 2D 矩陣權重，把像素在水平和垂直方向上結合起來。同樣，記住已經有了水平和垂直方向的權重運動，輸出會在水平和垂直方向上低一個像素。

所以我們做了什麼？

　　上面我們所做的事是試圖通過使用圖像的空間的安排從圖像中提取特徵。為了理解圖像，理解像素如何安排對於一個網絡極其重要。上面我們所做的也恰恰是一個卷積網絡所做的。我們可以採用輸入圖像，定義權重矩陣，並且輸入被卷積以從圖像中提取特殊特徵而無需損失其有關空間安排的信息。

　　這個方法的另一個重大好處是它可以減少圖像的參數數量。正如所見，卷積圖像相比於原始圖像有更少的像素。

2 ：什麼是神經網絡？

　　這裡的神經網絡，也指人工神經網絡（Artificial Neural Networks，簡稱ANNs），是一種模仿生物神經網絡行為特徵的算法數學模型，由神經元、節點與節點之間的連接（突觸）所構成，如下圖：

　　每個神經網絡單元抽象出來的數學模型如下，也叫感知器，它接收多個輸入（x1，x2，x3...），產生一個輸出，這就好比是神經末梢感受各種外部環境的變化（外部刺激），然後產生電信號，以便於轉導到神經細胞（又叫神經元）。

　　單個的感知器就構成了一個簡單的模型，但在現實世界中，實際的決策模型則要複雜得多，往往是由多個感知器組成的多層網絡，如下圖所示，這也是經典的神經網絡模型，由輸入層、隱含層、輸出層構成。

　　人工神經網絡可以映射任意複雜的非線性關係，具有很強的魯棒性、記憶能力、自學習等能力，在分類、預測、模式識別等方面有著廣泛的應用。

3 ：什麼是卷積神經網絡？

　　卷積神經網絡是近年發展起來的，並引起廣泛重視的一種高效識別方法，20世紀60年代，Hubel和Wiesel在研究貓腦皮層中用於局部敏感和方向選擇的神經元時發現其獨特的網絡結構可以有效地降低反饋神經網絡的複雜性，繼而提出了卷積神經網絡（Convolutional Neural Networks-簡稱CNN）。現在，CNN已經成為眾多科學領域的研究熱點之一，特別是在模式分類領域，由於該網絡避免了對圖像的複雜前期預處理，可以直接輸入原始圖像，因而得到了更為廣泛的應用。 K.Fukushima在1980年提出的新識別機是卷積神經網絡的第一個實現網絡。隨後，更多的科研工作者對該網絡進行了改進。其中，具有代表性的研究成果是Alexander和Taylor提出的“改進認知機”，該方法綜合了各種改進方法的優點並避免了耗時的誤差反向傳播。

　　這聽起來像是一個奇怪的生物學和數學的結合，但是這些網絡已經成為計算機視覺領域最具影響力的創新之一。2012年是神經網絡成長的第一年，Alex Krizhevsky用它們贏得了當年的ImageNet競賽（基本上是計算機視覺年度奧運會），把分類錯誤記錄從26％降到了15％，這個驚人的提高從那以後，許多公司一直在以服務為核心進行深度學習。Facebook使用自動標記算法的神經網絡，谷歌的照片搜索，亞馬遜的產品推薦，Pinterest的家庭飼料個性化和Instagram的搜索基礎設施。

　　一般的，CNN的基本結構包括兩層，其一為特徵提取層，每個神經元的輸入與前一層的局部接受域相連，並提取該局部的特徵。一旦該局部特徵被提取後，它與其它特徵間的位置關係也隨之確定下來；其二是特徵映射層，網絡的每個計算層由多個特徵映射組成，每個特徵映射是一個平面，平面上所有神經元的權值相等。特徵映射結構採用影響函數核小的sigmoid函數作為卷積網絡的激活函數，使得特徵映射具有位移不變性。此外，由於一個映射面上的神經元共享權值，因而減少了網絡自由參數的個數。卷積神經網絡中的每一個卷積層都緊跟著一個用來求局部平均與二次提取的計算層，這種特有的兩次特徵提取結構減小了特徵分辨率。

　　CNN主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形，該部分功能主要由池化層實現。由於CNN的特徵檢測層通過訓練數據進行學習，所以在使用CNN時，避免了顯式的特徵抽取，而隱式地從訓練數據中進行學習；再者由於同一特徵映射面上的神經元權值相同，所以網絡可以並行學習，這也是卷積網絡相對於神經元彼此相連網絡的一大優勢。卷積神經網絡以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優越性，其佈局更接近於實際的生物神經網絡，權值共享降低了網絡的複雜性，特別是多維輸入向量的圖像可以直接輸入網絡這一特點避免了特徵提取和分類過程中數據重建的複雜度。

　　說了這麼多，接下來將以圖像識別為例子，來介紹卷積神經網絡的原理。

3.1 案例

　　假設給定一張圖（可能是字母X或者字母O），通過CNN即可識別出是X還是O，如下圖所示，那怎麼做到的呢

3.2 圖像輸入

　　如果採用經典的神經網絡模型，則需要讀取整幅圖像作為神經網絡模型的輸入（即全連接的方式），當圖像的尺寸越大時，其連接的參數將變得很多，從而導致計算量非常大。　　而我們人類對外界的認知一般是從局部到全局，先對局部有感知的認識，再逐步對全體有認知，這是人類的認識模式。在圖像中的空間聯繫也是類似，局部範圍內的像素之間聯繫較為緊密，而距離較遠的像素則相關性較弱。因而，每個神經元其實沒有必要對全局圖像進行感知，只需要對局部進行感知，然後在更高層將局部的信息綜合起來就得到了全局的信息。這種模式就是卷積神經網絡中降低參數數目的重要神器：局部感受野。

3.3 提取特徵

　　如果字母X、字母O是固定不變的，那麼最簡單的方式就是圖像之間的像素一一比對就行，但在現實生活中，字體都有著各個形態上的變化（例如手寫文字識別），例如平移、縮放、旋轉、微變形等等，如下圖所示：

　　我們的目標是對於各種形態變化的X和O，都能通過CNN準確地識別出來，這就涉及到應該如何有效地提取特徵，作為識別的關鍵因子。　　回想前面講到的“局部感受野”模式，對於CNN來說，它是一小塊一小塊地來進行比對，在兩幅圖像中大致相同的位置找到一些粗糙的特徵（小塊圖像）進行匹配，相比起傳統的整幅圖逐一比對的方式，CNN的這種小塊匹配方式能夠更好的比較兩幅圖像之間的相似性。如下圖：

　　以字母X為例，可以提取出三個重要特徵（兩個交叉線、一個對角線），如下圖所示：

　　假如以像素值"1"代表白色，像素值"-1"代表黑色，則字母X的三個重要特徵如下：

　　那麼這些特徵又是怎麼進行匹配計算呢？

3.4 卷積（convolution）

　　這時就要請出今天的重要嘉賓：卷積。那什麼是卷積呢，不急，下面慢慢道來。當給定一張新圖時，CNN並不能準確地知道這些特徵到底要匹配原圖的哪些部分，所以它會在原圖中把每一個可能的位置都進行嘗試，相當於把這個feature（特徵）變成了一個過濾器。這個用來匹配的過程就被稱為卷積操作，這也是卷積神經網絡名字的由來。　　卷積的操作如下圖所示：

　　是不是很像把毛巾沿著對角捲起來，下圖形象地說明了為什麼叫「卷」積

　　在本案例中，要計算一個feature（特徵）和其在原圖上對應的某一小塊的結果，只需將兩個小塊內對應位置的像素值進行乘法運算，然後將整個小塊內乘法運算的結果累加起來，最後再除以小塊內像素點總個數即可（注：也可不除以總個數的）。　　如果兩個像素點都是白色（值均為1），那麼1*1 = 1，如果均為黑色，那麼(-1)*(-1) = 1，也就是說，每一對能夠匹配上的像素，其相乘結果為1。類似地，任何不匹配的像素相乘結果為-1。具體過程如下（第一個、第二個……、最後一個像素的匹配結果）：

　　根據卷積的計算方式，第一塊特徵匹配後的卷積計算如下，結果為1

　　對於其它位置的匹配，也是類似（例如中間部分的匹配）

　　計算之後的卷積如下

　　以此類推，對三個特徵圖像不斷地重複著上述過程，通過每一個feature（特徵）的卷積操作，會得到一個新的二維數組，稱之為feature map。其中的值，越接近1表示對應位置和feature的匹配越完整，越是接近-1，表示對應位置和feature的反面匹配越完整，而值接近0的表示對應位置沒有任何匹配或者說沒有什麼關聯。如下圖所示：

　　可以看出，當圖像尺寸增大時，其內部的加法、乘法和除法操作的次數會增加得很快，每一個filter的大小和filter的數目呈線性增長。由於有這麼多因素的影響，很容易使得計算量變得相當龐大。

3.5 池化（Pooling）

　　為了有效地減少計算量，CNN使用的另一個有效的工具被稱為“池化(Pooling)”。池化就是將輸入圖像進行縮小，減少像素信息，只保留重要信息。　　池化的操作也很簡單，通常情況下，池化區域是2*2大小，然後按一定規則轉換成相應的值，例如取這個池化區域內的最大值（max-pooling）、平均值（mean-pooling）等，以這個值作為結果的像素值。　　下圖顯示了左上角2*2池化區域的max-pooling結果，取該區域的最大值max(0.77,-0.11,-0.11,1.00)，作為池化後的結果，如下圖：

　　池化區域往左，第二小塊取大值max(0.11,0.33,-0.11,0.33)，作為池化後的結果，如下圖：

　　其它區域也是類似，取區域內的最大值作為池化後的結果，最後經過池化後，結果如下：

　　對所有的feature map執行同樣的操作，結果如下：

　　最大池化（max-pooling）保留了每一小塊內的最大值，也就是相當於保留了這一塊最佳的匹配結果（因為值越接近1表示匹配越好）。也就是說，它不會具體關注窗口內到底是哪一個地方匹配了，而只關注是不是有某個地方匹配上了。　　通過加入池化層，圖像縮小了，能很大程度上減少計算量，降低機器負載。

3.6 激活函數RelU (Rectified Linear Units)

　　常用的激活函數有sigmoid、tanh、relu等等，前兩者sigmoid/tanh比較常見於全連接層，後者ReLU常見於卷積層。　　回顧一下前面講的感知機，感知機在接收到各個輸入，然後進行求和，再經過激活函數後輸出。激活函數的作用是用來加入非線性因素，把卷積層輸出結果做非線性映射。

　　在卷積神經網絡中，激活函數一般使用ReLU(The Rectified Linear Unit，修正線性單元)，它的特點是收斂快，求梯度簡單。計算公式也很簡單，max(0,T)，即對於輸入的負值，輸出全為0，對於正值，則原樣輸出。　　下面看一下本案例的ReLU激活函數操作過程：　　第一個值，取max(0,0.77)，結果為0.77，如下圖

　　第二個值，取max(0,-0.11)，結果為0，如下圖

　　以此類推，經過ReLU激活函數後，結果如下：

　　對所有的feature map執行ReLU激活函數操作，結果如下：

3.7 深度神經網絡

　　通過將上面所提到的卷積、激活函數、池化組合在一起，就變成下圖：

　　通過加大網絡的深度，增加更多的層，就得到了深度神經網絡，如下圖：

3.8 全連接層(Fully connected layers)

　　全連接層在整個卷積神經網絡中起到“分類器”的作用，即通過卷積、激活函數、池化等深度網絡後，再經過全連接層對結果進行識別分類。　　首先將經過卷積、激活函數、池化的深度網絡後的結果串起來，如下圖所示：

　　由於神經網絡是屬於監督學習，在模型訓練時，根據訓練樣本對模型進行訓練，從而得到全連接層的權重（如預測字母X的所有連接的權重）

　　在利用該模型進行結果識別時，根據剛才提到的模型訓練得出來的權重，以及經過前面的卷積、激活函數、池化等深度網絡計算出來的結果，進行加權求和，得到各個結果的預測值，然後取值最大的作為識別的結果（如下圖，最後計算出來字母X的識別值為0.92，字母O的識別值為0.51，則結果判定為X）

　　上述這個過程定義的操作為”全連接層“(Fully connected layers)，全連接層也可以有多個，如下圖：

3.9 卷積神經網絡（Convolutional Neural Networks）

　　將以上所有結果串起來後，就形成了一個“卷積神經網絡”（CNN）結構，如下圖所示：

　　最後，再回顧總結一下，卷積神經網絡主要由兩部分組成，一部分是特徵提取（卷積、激活函數、池化），另一部分是分類識別（全連接層），下圖便是著名的手寫文字識別卷積神經網絡結構圖：

3.10 對卷積神經網絡的總結

　　卷積網絡在本質上是一種輸入到輸出的映射，它能夠學習大量的輸入與輸出之間的映射關係，而不需要任何輸入和輸出之間的精確的數學表達式，只要用已知的模式對卷積網絡加以訓練，網絡就具有輸入輸出對之間的映射能力。

　　CNN一個非常重要的特點就是頭重腳輕（越往輸入權值越小，越往輸出權值越多），呈現出一個倒三角的形態，這就很好地避免了BP神經網絡中反向傳播的時候梯度損失得太快。

　　卷積神經網絡CNN主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。由於CNN的特徵檢測層通過訓練數據進行學習，所以在使用CNN時，避免了顯式的特徵抽取，而隱式地從訓練數據中進行學習；再者由於同一特徵映射面上的神經元權值相同，所以網絡可以並行學習，這也是卷積網絡相對於神經元彼此相連網絡的一大優勢。卷積神經網絡以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優越性，其佈局更接近於實際的生物神經網絡，權值共享降低了網絡的複雜性，特別是多維輸入向量的圖像可以直接輸入網絡這一特點避免了特徵提取和分類過程中數據重建的複雜度。

四：常見的幾種卷積神經網絡介紹

　　目前圖像分類中的ResNet, 目標檢測領域佔統治地位的Faster R-CNN，分割中最牛的Mask-RCNN, UNet和經典的FCN都是以下面幾種常見網絡為基礎。

一：LeNet

1.1 網絡背景

　　LeNet誕生於1994年，由深度學習三巨頭之一的Yan LeCun提出，他也被稱為卷積神經網絡之父。LeNet主要用來進行手寫字符的識別與分類，準確率達到了98%，並在美國的銀行中投入了使用，被用於讀取北美約10%的支票。LeNet奠定了現代卷積神經網絡的基礎。

1.2 網絡結構

　　上圖為LeNet結構圖，是一個6層網絡結構：三個卷積層，兩個下采樣層和一個全連接層（圖中C代表卷積層，S代表下采樣層，F代表全連接層）。其中，C5層也可以看成是一個全連接層，因為C5層的卷積核大小和輸入圖像的大小一致，都是5*5（可參考LeNet詳細介紹）。

1.3 網絡特點

每個卷積層包括三部分：卷積、池化和非線性激活函數（sigmoid激活函數）
使用卷積提取空間特徵
降採樣層採用平均池化

1.4 網絡講義

二：AlexNet

2.1 網絡背景

　　AlexNet由Hinton的學生Alex Krizhevsky於2012年提出，並在當年取得了Imagenet比賽冠軍。AlexNet可以算是LeNet的一種更深更寬的版本，證明了卷積神經網絡在複雜模型下的有效性，算是神經網絡在低谷期的第一次發聲，確立了深度學習，或者說卷積神經網絡在計算機視覺中的統治地位。

2.2 網絡結構

　　AlexNet的結構及參數如上圖所示，是8層網絡結構（忽略激活，池化，LRN，和dropout層）,有5個卷積層和3個全連接層，第一卷積層使用大的卷積核，大小為11*11，步長為4，第二卷積層使用5*5的卷積核大小，步長為1，剩餘卷積層都是3*3的大小，步長為1。激活函數使用ReLu（雖然不是他發明，但是他將其發揚光大），池化層使用重疊的最大池化，大小為3*3，步長為2。在全連接層增加了dropout，第一次將其實用化。（參考：AlexNet詳細解釋）

2.3 網絡特點

使用兩塊GPU並行加速訓練，大大降低了訓練時間
成功使用ReLu作為激活函數，解決了網絡較深時的梯度彌散問題
使用數據增強、dropout和LRN層來防止網絡過擬合，增強模型的泛化能力

三：VGGNet

3.1 網絡背景

　　VGGNet是牛津大學計算機視覺組和Google DeepMind公司一起研發的深度卷積神經網絡，並取得了2014年Imagenet比賽定位項目第一名和分類項目第二名。該網絡主要是泛化性能很好，容易遷移到其他的圖像識別項目上，可以下載VGGNet訓練好的參數進行很好的初始化權重操作，很多卷積神經網絡都是以該網絡為基礎，比如FCN，UNet，SegNet等。vgg版本很多，常用的是VGG16，VGG19網絡。

3.2 網絡結構

　　上圖為VGG16的網絡結構，共16層（不包括池化和softmax層），所有的卷積核都使用3*3的大小，池化都使用大小為2*2，步長為2的最大池化，卷積層深度依次為64 -> 128 -> 256 -> 512 ->512。

3.3 網絡特點

網絡結構和AlexNet有點兒像，不同的地方在於：

主要的區別，一個字：深，兩個字：更深。把網絡層數加到了16-19層（不包括池化和softmax層），而AlexNet是8層結構。
將卷積層提升到卷積塊的概念。卷積塊有2~3個卷積層構成，使網絡有更大感受野的同時能降低網絡參數，同時多次使用ReLu激活函數有更多的線性變換，學習能力更強（詳細介紹參考：TensorFlow實戰P110頁）。
在訓練時和預測時使用Multi-Scale做數據增強。訓練時將同一張圖片縮放到不同的尺寸，在隨機剪裁到224*224的大小，能夠增加數據量。預測時將同一張圖片縮放到不同尺寸做預測，最後取平均值。

四：ResNet

4.1 網絡背景

　　ResNet（殘差神經網絡）由微軟研究院的何凱明等4名華人於2015年提出，成功訓練了152層超級深的卷積神經網絡，效果非常突出，而且容易結合到其他網絡結構中。在五個主要任務軌跡中都獲得了第一名的成績：

ImageNet分類任務：錯誤率3.57%
ImageNet檢測任務：超過第二名16%
ImageNet定位任務：超過第二名27%
COCO檢測任務：超過第二名11%
COCO分割任務：超過第二名12%

　　作為大神級人物，何凱明憑藉Mask R-CNN論文獲得ICCV2017最佳論文，也是他第三次斬獲頂會最佳論文，另外，他參與的另一篇論文：Focal Loss for Dense Object Detection，也被大會評為最佳學生論文。

4.2 網絡結構

　　上圖為殘差神經網絡的基本模塊（專業術語叫殘差學習單元），輸入為x，輸出為F(x)+x，F(x)代表網絡中數據的一系列乘、加操作，假設神經網絡最優的擬合結果輸出為H(x)=F(x)+x，那麼神經網絡最優的F(x)即為H(x)與x的殘差，通過擬合殘差來提升網絡效果。為什麼轉變為擬合殘差就比傳統卷積網絡要好呢？因為訓練的時候至少可以保證殘差為0，保證增加殘差學習單元不會降低網絡性能，假設一個淺層網絡達到了飽和的準確率，後面再加上這個殘差學習單元，起碼誤差不會增加。（參考：ResNet詳細解釋）通過不斷堆疊這個基本模塊，就可以得到最終的ResNet模型，理論上可以無限堆疊而不改變網絡的性能。下圖為一個34層的ResNet網絡。

4.3 網絡特點

使得訓練超級深的神經網絡成為可能，避免了不斷加深神經網絡，準確率達到飽和的現象（後來將層數增加到1000層）
輸入可以直接連接到輸出，使得整個網絡只需要學習殘差，簡化學習目標和難度。
ResNet是一個推廣性非常好的網絡結構，容易和其他網絡結合

五：幾張常見的卷積神經網絡論文地址：

1. LeNet論文

2. AlexNet論文

3. VGGNet論文

4. ResNet論文

分享到:

閱讀更多 風信子編程 的文章

關鍵字: 語音識別技術體育投資

Genetic CNN: 經典NAS算法，遺傳算法的標準套用

目標檢測之GA-RPN

卷積神經網絡CNN的基本結構

後R-CNN時代，Faster R-CNN、SSD...Faster R-CNN系列勝了嗎？

用漸進打磨獲得最佳的顯著性目標檢測結果

Attention 機制的學習

CNN vs RNN vs ANN——3種神經網絡分析模型，你pick誰？

Day6:殘差網絡中的Skip Connection

人工智能Keras圖像分類器（CNN卷積神經網絡的圖片識別篇）

人工智能Keras CNN卷積神經網絡的圖片識別

CNN中的反向傳播

開源MatrixNets：用於對象檢測的新的比例和長寬比感知體系結構

01.13 推薦系統中的深度匹配模型（下）

python3 32.keras使用卷積神經網絡(CNN)完成貓狗分類學習筆記

基於 CNN 的文本分類算法

11.24 使用卷積神經網絡進行文本分類

ICCV 2019論文解讀：數據有噪聲怎麼辦？你可以考慮負學習

基於 CNN 的驗證碼破解實戰

目標檢測算法系列】二、SPP-Net算法

CNN，RNN，LSTM 都是什麼？（小白深度學習入門）

常用的 Normalization 方法：BN、LN、IN、GN（附代碼＆鏈接）

機器學習-Faster RCNN中的RPN網絡

機器學習-目標檢測(Object Detection)的評估指標mAP

卷積神經網絡CNN

遷移學習在自然語言處理中的應用

TensorFlow系列專題（十二）：CNN最全原理剖析（序）

卷積神經網絡(CNN)的相關概念

案例｜如何用Python 和 Mask R-CNN 自動尋找停車位（附源碼）

CNN 風格遷移實戰（附python代碼）

CNN，GAN，AE和VAE概述

梯度下降優化算法概述

08.20 機器不學習：卷積神經網絡 CNN 筆記-目標探測2

機器不學習：卷積神經網絡 CNN 筆記-目標探測1

機器不學習：CNN-RNN結合的3D物體識別分類

了解卷積神經網絡如何使用TDA學習

深度卷積對抗生成網絡(DCGAN)

基於深度學習的目標檢測算法詳解（二）:Faster R-CNN與Mask R-CNN

基於深度學習的目標檢測算法詳解（一）:R-CNN與Fast R-CNN

入門｜一文簡述循環神經網絡

卷積神經網絡深入解析-CNN

06.17 卷積神經網絡深入解析-CNN

06.13 圖像語義分割的工作原理和CNN架構變遷

05.18 「薦讀」卷積神經網絡的通俗易懂解讀（後篇）

05.16 如何構建卷積網絡 Convolutional Network？

學界｜DeepMind論文：CNN的變形穩定性和池化無關，濾波器平滑度才是關鍵

04.23 全連接網絡到卷積神經網絡逐步推導（組圖無公式）

程式設計師小伙9行tensorflow代碼，演示卷積網絡(CNN),有代碼

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"