卷積神經的這些坑你都踩過嗎?

自 2012 年 AlexNet 大展神威以來,研究者已經提出了各種

卷積架構,包括 VGG、NiN、Inception、ResNet、DenseNet 和 NASNet 等,我們會發現模型的準確率正穩定提升。

但是現在這些提升並不僅僅來源於架構的修正,還來源於訓練過程的改進:包括損失函數的優化、數據預處理方法的提煉和最優化方法的提升等。在過去幾年中,卷積網絡與圖像分割出現大量的改進,但大多數在文獻中只作為實現細節而簡要提及,而其它還有一些技巧甚至只能在源代碼中找到。

論文:Bag of Tricks for Image Classification with Convolutional Neural Networks

卷積神經的這些坑你都踩過嗎?

摘要:在本文中,我們將測試一系列的微調方法,並通過控制變量實驗評估它們對最終準確率的影響。我們將展示通過組合不同的微調方法,我們可以顯著地改善多種 CNN 模型。

2 訓練過程

目前我們基本上都用小批量 SGD 或其變體訓練神經網絡,Algorithm 1 展示了 SGD 的模版過程。利用廣泛使用的 ResNet 實現作為我們的基線,訓練過程主要分為以下六個步驟:

  1. 隨機採樣一張圖片,並解碼為 32 位的原始像素浮點值,每一個像素值的取值範圍為 [0, 255]。
  2. 隨機以 [3/4, 4/3] 為長寬比、[8%, 100%] 為比例裁減矩形區域,然後再縮放為 224*224 的方圖。
  3. 以 0.5 的概率隨機水平翻轉圖像。
  4. 從均勻分佈 [0.6, 1.4] 中抽取係數,並用於縮放色調和明亮度等。
  5. 從正態分佈 N (0, 0.1) 中採樣一個係數,以添加 PCA 噪聲。
  6. 圖像分別通過減去(123.68, 116.779, 103.939),併除以(58.393, 57.12, 57.375)而獲得經歸一化的 RGB 三通道。

經過六步後就可以訓練並驗證了,以下展示了基線模型的準確率:

卷積神經的這些坑你都踩過嗎?


表 2:文獻中實現的驗證準確率與我們基線模型的驗證準確率,注意 Inception V3 的輸入圖像大小是 299*299。

3 高效訓練

隨著 GPU 等硬件的流行,很多與性能相關的權衡取捨或最優選擇都已經發生了改變。在這一章節中,我們研究了能利用低精度和大批量訓練優勢的多種技術,它們都不會損害模型的準確率,甚至有一些技術還能同時提升準確率與訓練速度。

3.1 大批量訓練

對於凸優化問題,隨著批量的增加,收斂速度會降低。人們已經知道神經網絡會有類似的實證結果 [25]。換句話說,對於相同數量的 epoch,大批量訓練的模型與使用較小批量訓練的模型相比,驗證準確率會降低。因此有很多方法與技巧都旨在解決這個問題:

線性擴展學習率:較大的批量會減少梯度的噪聲,從而可以增加學習率來加快收斂。

學習率預熱:在預熱這一啟發式方法中,我們在最初使用較小的學習率,然後在訓練過程變得穩定時換回初始學習率。

Zero γ:注意 ResNet 塊的最後一層可以是批歸一化層(BN)。在 zero γ啟發式方法中,我們對所有殘差塊末端的 BN 層初始化γ=0。因此,所有的殘差塊僅返回輸入值,這相當於網絡擁有更少的層,在初始階段更容易訓練。

無偏衰減:無偏衰減啟發式方法僅應用權重衰減到卷積層和全連接層的權重,其它如 BN 中的γ和β都不進行衰減。

卷積神經的這些坑你都踩過嗎?


表 4:ResNet-50 上每種有效訓練啟發式的準確率效果。

3.2 低精度訓練

然而,新硬件可能具有增強的算術邏輯單元以用於較低精度的數據類型。儘管具備性能優勢,但是精度降低具有較窄的取值範圍,因此有可能出現超出範圍而擾亂訓練進度的情況。

卷積神經的這些坑你都踩過嗎?


表 3:ResNet-50 在基線(BS = 256 與 FP32)和更高效硬件設置(BS = 1024 與 FP16)之間的訓練時間和驗證準確率的比較。

4 模型變體

我們將簡要介紹 ResNet 架構,特別是與模型變體調整相關的模塊。ResNet 網絡由一個輸入主幹、四個後續階段和一個最終輸出層組成,如圖 1 所示。輸入主幹有一個 7×7 卷積,輸出通道有 64 個,步幅為 2,接著是 3 ×3 最大池化層,步幅為 2。輸入主幹(input stem)將輸入寬度和高度減小 4 倍,並將其通道尺寸增加到 64。

從階段 2 開始,每個階段從下采樣塊開始,然後是幾個殘差塊。在下采樣塊中,存在路徑 A 和路徑 B。路徑 A 具有三個卷積,其卷積核大小分別為 1×1、3×3 和 1×1。第一個卷積的步幅為 2,以將輸入長度和寬度減半,最後一個卷積的輸出通道比前兩個大 4 倍,稱為瓶頸結構。路徑 B 使用步長為 2 的 1×1 卷積將輸入形狀變換為路徑 A 的輸出形狀,因此我們可以對兩個路徑的輸出求和以獲得下采樣塊的輸出。殘差塊類似於下采樣塊,除了僅使用步幅為 1 的卷積。

我們可以改變每個階段中殘差塊的數量以獲得不同的 ResNet 模型,例如 ResNet-50 和 ResNet-152,其中的數字表示網絡中卷積層的數量。

卷積神經的這些坑你都踩過嗎?


圖 1:ResNet-50 的架構。圖中說明了卷積層的卷積核大小、輸出通道大小和步幅大小(默認值為 1),池化層也類似。

卷積神經的這些坑你都踩過嗎?


圖 2:三個 ResNet 變體。ResNet-B 修改 ResNet 的下采樣模塊。ResNet-C 進一步修改輸入主幹。在此基礎上,ResNet-D 再次修改了下采樣塊。

卷積神經的這些坑你都踩過嗎?


表 5:將 ResNet-50 與三種模型變體進行模型大小(參數數量)、FLOPs 和 ImageNet 驗證準確率(top-1、top-5)的比較。

5 訓練方法改進

5.1 餘弦學習率衰減

Loshchilov 等人 [18] 提出餘弦退火策略,其簡化版本是按照餘弦函數將學習速率從初始值降低到 0。假設批次總數為 T(忽略預熱階段),然後在批次 t,學習率η_t 計算如下:

卷積神經的這些坑你都踩過嗎?


其中η是初始學習率,我們將此方案稱為「餘弦」衰減。

卷積神經的這些坑你都踩過嗎?


圖 3:可視化帶有預熱方案的學習率變化。頂部:批量大小為 1024 的餘弦衰減和按迭代步衰減方案。底部:關於兩個方案的 top-1 驗證準確率曲線。

5.2 標籤平滑

標籤平滑的想法首先被提出用於訓練 Inception-v2 [26]。它將真實概率的構造改成:

卷積神經的這些坑你都踩過嗎?


其中ε是一個小常數,K 是標籤總數量。

卷積神經的這些坑你都踩過嗎?


圖 4:ImageNet 上標籤平滑效果的可視化。頂部:當增加ε時,目標類別與其它類別之間的理論差距減小。下圖:最大預測與其它類別平均值之間差距的經驗分佈。很明顯,通過標籤平滑,分佈中心處於理論值並具有較少的極端值。

5.3 知識蒸餾

在知識蒸餾 [10] 中,我們使用教師模型來幫助訓練當前模型(被稱為學生模型)。教師模型通常是具有更高準確率的預訓練模型,因此通過模仿,學生模型能夠在保持模型複雜性相同的同時提高其自身的準確率。一個例子是使用 ResNet-152 作為教師模型來幫助訓練 ResNet-50。

5.4 混合訓練

在混合訓練(mixup)中,每次我們隨機抽樣兩個樣本 (x_i,y_i) 和 (x_j,y_j)。然後我們通過這兩個樣本的加權線性插值構建一個新的樣本:

卷積神經的這些坑你都踩過嗎?


其中 λ∈[0,1] 是從 Beta(α, α) 分佈提取的隨機數。在混合訓練中,我們只使用新的樣本 (x hat, y hat)。

5.5 實驗結果

卷積神經的這些坑你都踩過嗎?


表 6:通過堆疊訓練改進方法,得到的 ImageNet 驗證準確率。基線模型為第 3 節所描述的。

6 遷移學習

6.1 目標檢測

卷積神經的這些坑你都踩過嗎?


表 8:在 Pascal VOC 上評估各種預訓練基礎網絡的 Faster-RCNN 性能。

6.2 語義分割

卷積神經的這些坑你都踩過嗎?


表 9:在 ADE20K 上評估各種基礎網絡的 FCN 性能。

專注交流

卷積神經的這些坑你都踩過嗎?

現在人工智能處於這種天花板時期,都在爭先恐後的想學到好的人工智能技術,但是還有些人就一直在等,很多的高校都開設了人工智能,等他們畢業了那你還有競爭的份嗎?所以現在是我們學習的最佳時期。


分享到:


相關文章: