「目標檢測」Faster RCNN算法詳解_技术 _ 頭條網

思想

從RCNN到fast RCNN，再到本文的faster RCNN，目標檢測的四個基本步驟（候選區域生成，特徵提取，分類，位置精修）終於被統一到一個深度網絡框架之內。所有計算沒有重複，完全在GPU中完成，大大提高了運行速度。

faster RCNN可以簡單地看做“區域生成網絡+fast RCNN“的系統，用區域生成網絡代替fast RCNN中的Selective Search方法。本篇論文著重解決了這個系統中的三個問題：

1. 如何設計區域生成網絡

2. 如何訓練區域生成網絡

3. 如何讓區域生成網絡和fast RCNN網絡共享特徵提取網絡

區域生成網絡：結構

基本設想是：在提取好的特徵圖上，對所有可能的候選框進行判別。由於後續還有位置精修步驟，所以候選框實際比較稀疏。

特徵提取

原始特徵提取（上圖灰色方框）包含若干層conv+relu，直接套用ImageNet上常見的分類網絡即可。本文試驗了兩種網絡：5層的ZF[3]，16層的VGG-16[4]，具體結構不再贅述。

額外添加一個conv+relu層，輸出51*39*256維特徵（feature）。

候選區域（anchor）

在整個faster RCNN算法中，有三種尺度。

原圖尺度：原始輸入的大小。不受任何限制，不影響性能。

歸一化尺度：輸入特徵提取網絡的大小，在測試時設置，源碼中opts.test_scale=600。anchor在這個尺度上設定。這個參數和anchor的相對大小決定了想要檢測的目標範圍。

網絡輸入尺度：輸入特徵檢測網絡的大小，在訓練時設置，源碼中為224*224。

窗口分類和位置精修

分類層（cls_score）輸出每一個位置上，9個anchor屬於前景和背景的概率；窗口迴歸層（bbox_pred）輸出每一個位置上，9個anchor對應窗口應該平移縮放的參數。

對於每一個位置來說，分類層從256維特徵中輸出屬於前景和背景的概率；窗口迴歸層從256維特徵中輸出4個平移縮放參數。

就局部來說，這兩層是全連接網絡；就全局來說，由於網絡在所有位置（共51*39個）的參數相同，所以實際用尺寸為1×1的卷積網絡實現。

實際代碼中，將51*39*9個候選位置根據得分排序，選擇最高的一部分，再經過Non-Maximum Suppression獲得2000個候選結果。之後才送入分類器和迴歸器。

所以Faster-RCNN和RCNN, Fast-RCNN一樣，屬於2-stage的檢測算法。

區域生成網絡：訓練

樣本

考察訓練集中的每張圖像：

a. 對每個標定的真值候選區域，與其重疊比例最大的anchor記為前景樣本

b. 對a)剩餘的anchor，如果其與某個標定重疊比例大於0.7，記為前景樣本；如果其與任意一個標定的重疊比例都小於0.3，記為背景樣本

c. 對a),b)剩餘的anchor，棄去不用。

d. 跨越圖像邊界的anchor棄去不用

代價函數

同時最小化兩種代價：

a. 分類誤差

b. 前景樣本的窗口位置偏差

超參數

原始特徵提取網絡使用ImageNet的分類樣本初始化，其餘新增層隨機初始化。

每個mini-batch包含從一張圖像中提取的256個anchor，前景背景樣本1:1.

前60K迭代，學習率0.001，後20K迭代，學習率0.0001。

momentum設置為0.9，weight decay設置為0.0005。[5]

共享特徵

區域生成網絡（RPN）和fast RCNN都需要一個原始特徵提取網絡（下圖灰色方框）。這個網絡使用ImageNet的分類庫得到初始參數W0，但要如何精調參數，使其同時滿足兩方的需求呢？本文講解了三種方法。

輪流訓練

a. 從W0開始，訓練RPN。用RPN提取訓練集上的候選區域

b. 從W0開始，用候選區域訓練Fast RCNN，參數記為W1

c. 從W1開始，訓練RPN…

具體操作時，僅執行兩次迭代，並在訓練時凍結了部分層。論文中的實驗使用此方法。

如Ross Girshick在ICCV 15年的講座Training R-CNNs of various velocities中所述，採用此方法沒有什麼根本原因，主要是因為”實現問題，以及截稿日期“。

近似聯合訓練

直接在上圖結構上訓練。在backward計算梯度時，把提取的ROI區域當做固定值看待；在backward更新參數時，來自RPN和來自Fast RCNN的增量合併輸入原始特徵提取層。

此方法和前方法效果類似，但能將訓練時間減少20%-25%。公佈的python代碼中包含此方法。

聯合訓練

直接在上圖結構上訓練。但在backward計算梯度時，要考慮ROI區域的變化的影響。推導超出本文範疇，請參看15年NIP論文[6]。

實驗

除了開篇提到的基本性能外，還有一些值得注意的結論

與Selective Search方法（黑）相比，當每張圖生成的候選區域從2000減少到300時，本文RPN方法（紅藍）的召回率下降不大。說明RPN方法的目的性更明確。

使用更大的Microsoft COCO庫[7]訓練，直接在PASCAL VOC上測試，準確率提升6%。說明faster RCNN遷移性良好

，沒有over fitting。

Girshick, Ross, et al. “Rich feature hierarchies for accurate object detection and semantic segmentation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2014. ↩Girshick, Ross. “Fast r-cnn.” Proceedings of the IEEE International Conference on Computer Vision. 2015. ↩M. D. Zeiler and R. Fergus, “Visualizing and understanding convolutional neural networks,” in European Conference on Computer Vision (ECCV), 2014. ↩K. Simonyan and A. Zisserman, “Very deep convolutional networks for large-scale image recognition,” in International Conference on Learning Representations (ICLR), 2015. ↩learning rate-控制增量和梯度之間的關係；momentum-保持前次迭代的增量；weight decay-每次迭代縮小參數，相當於正則化。 ↩Jaderberg et al. “Spatial Transformer Networks” NIPS 2015 ↩30萬+圖像，80類檢測庫。

思想

區域生成網絡：結構

區域生成網絡：訓練

共享特徵

實驗

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪