有哪些提升神經網絡性能的方法？問答頭條網

2018-07-05 12:41:52 佚名

riogarfield

Rohith Gandhi近日在towardsdatascience發文，簡要介紹了提升神經網絡性能的方法，如檢查過擬合、調參、算法集成、數據增強。

神經網絡是一種在很多用例中能夠提供最優準確率的機器學習算法。但是，很多時候我們構建的神經網絡的準確率可能無法令人滿意，或者無法讓我們在數據科學競賽中拿到領先名次。所以，我們總是在尋求更好的方式來改善模型的性能。有很多技術可以幫助我們達到這個目標。本文將介紹這些技術，幫助大家構建更準確的神經網絡。

檢查過擬合

如何鑑別模型是否過擬合呢？你僅僅需要交叉檢查訓練準確率和測試準確率。如果訓練準確率遠遠高出了測試準確率，那麼可以斷定你的模型是過擬合了。你也可以在圖中畫出預測點來驗證。下面是一些避免過擬合的技術：

數據正則化（L1 或 L2）；
Dropout：隨機丟棄一些神經元之間的連接，強制神經網絡尋找新的路徑並泛化；
早停（Early Stopping）：促使神經網絡訓練早點停止，以減少在測試集中的誤差。

超參數調節

超參數是你必須給網絡初始化的值，這些數值不能在訓練的過程中學到。在卷積神經網絡中，這些超參數包括：核大小、神經網絡層數、激活函數、損失函數、所用的優化器（梯度下降、RMSprop）、批大小、訓練的 epoch 數量等等。

每個神經網絡都會有最佳超參數組合，這組參數能夠得到最大的準確率。你也許會問，「有這麼多超參數，我如何選擇每個參數呢？」不幸的是，對每個神經網絡而言，並沒有確定最佳超參數組合的直接方法，所以通常都是通過反覆試驗得到的。但是也有一些關於上述超參數的最佳實踐：

學習率：選擇最優學習率是很重要的，因為它決定了神經網絡是否可以收斂到全局最小值。選擇較高的學習率幾乎從來不能到達全局最小值，因為你很可能跳過它。所以，你總是在全局最小值附近，但是從未收斂到全局最小值。選擇較小的學習率有助於神經網絡收斂到全局最小值，但是會花費很多時間。這樣你必須用更多的時間來訓練神經網絡。較小的學習率也更可能使神經網絡困在局部極小值裡面，也就是說，神經網絡會收斂到一個局部極小值，而且因為學習率比較小，它無法跳出局部極小值。所以，在設置學習率的時候你必須非常謹慎。
神經網絡架構：並不存在能夠在所有的測試集中帶來高準確率的標準網絡架構。你必須實驗，嘗試不同的架構，從實驗結果進行推斷，然後再嘗試。我建議使用已經得到驗證的架構，而不是構建自己的網絡架構。例如：對於圖像識別任務，有 VGG net、Resnet、谷歌的 Inception 網絡等。這些都是開源的，而且已經被證明具有較高的準確率。所以你可以把這些架構複製過來，然後根據自己的目的做一些調整。
優化器和損失函數：這方面有很多可供選擇。事實上，如果有必要，你可以自定義損失函數。常用的優化器有 RMSprop、隨機梯度下降和 Adam。這些優化器貌似在很多用例中都可以起作用。如果你的任務是分類任務，那麼常用的損失函數是類別交叉熵。如果你在執行迴歸任務，那麼均方差是最常用的損失函數。你可以自由地使用這些優化器超參數進行試驗，也可以使用不同的優化器和損失函數。
批大小和 epoch 次數：同樣，沒有適用於所有用例的批大小和 epoch 次數的標準值。你必須進行試驗，嘗試不同的選擇。在通常的實踐中，批大小被設置為 8、16、32……epoch 次數則取決於開發者的偏好以及他/她所擁有的計算資源。
激活函數：激活函數映射非線性函數輸入和輸出。激活函數是特別重要的，選擇合適的激活函數有助於模型學習得更好。現在，整流線性單元（ReLU）是最廣泛使用的激活函數，因為它解決了梯度消失的問題。更早時候，Sigmoid 和 Tanh 函數都是最常用的激活函數。但是它們都會遇到梯度消失的問題，即在反向傳播中，梯度在到達初始層的過程中，值在變小，趨向於 0。這不利於神經網絡向具有更深層的結構擴展。ReLU 克服了這個問題，因此也就可以允許神經網絡擴展到更深的層。

ReLU 激活函數

算法集成

如果單個神經網絡不像你期待的那樣準確，那麼你可以創建一個神經網絡集成，結合多個網絡的預測能力。你可以選擇不同的神經網絡架構，在不同部分的數據集上訓練它們，然後使用它們的集合預測能力在測試集上達到較高的準確率。假設你在構建一個貓狗分類器，0 代表貓，1 代表狗。當組合不同的貓狗分類器時，基於單個分類器之間的皮爾遜相關係數，集成算法的準確率有了提升。讓我們看一個例子，拿 3 個模型來衡量它們各自的準確率：

3 個模型的皮爾遜相關係數很高。所以，集成它們並不會提升準確率。如果我們使用多數投票的方式來組合這三個模型，會得到下面的結果：

現在，讓我們來看一組輸出具備較低皮爾遜相關係數的模型：

當我們組合這三個弱學習器的時候，會得到以下結果：

正如你在上面所看到的，具有低皮爾遜相關係數的弱學習器的組合優於具有較高皮爾遜相關係數的學習器的組合。

缺乏數據