ICCV 2019:航拍圖像中行人像素小、目標稀疏不均勻怎麼破?

本文由AI研習社用戶BBuf投稿,來稿見文末聯繫方式

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?
ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

作者 | BBuf

單位 | 北京鼎漢技術有限公司 算法工程師(CV)

美國費城天普大學,美國空軍研究實驗室,美國石溪大學共同提出ClusDet用於航空圖像的目標檢測,降低了計算複雜度並大幅提升了精度,即將開源。

下面要介紹的論文發表於ICCV2019,題為「Clustered Object Detection in Aerial Images」;

論文地址: https://arxiv.org/abs/1904.08008

航空圖像中的目標檢測主要面臨以下兩個挑戰:(1)像行人這樣的目標在圖片中所佔像素小,使其很難與周圍背景分開。(2)目標通常稀疏且分佈不均勻,因此檢測效率很低。

這篇論文探討這兩個問題,靈感來自於觀察到航空圖像中的目標通常是聚集的。論文提出了一個將目標聚類和檢測結合起來的端到端的聚類檢測框架(ClusDet)。ClusDet中的關鍵組成部位包含一個簇提議網絡(CPNet),一個尺度估計網絡(ScaleNet),和一個專用檢測網絡(DetecNet)。給一張輸入圖像,CPNet產生目標簇區域,ScaleNet估計簇區域的目標尺度。然後,每個尺度歸一化的簇區域輸入到DectecNet中進行目標檢測。

相比於以前的解決方法,ClusDet有如下優點:(1)很大程度上減少了用於最終檢測的分塊數並獲得了很好的運行時間效率。(2)基於簇的尺度估計比之前基於單個物體的方法更準確。(3)最終的檢測網絡專門用於簇區域,隱式地對先驗上下文信息進行建模,以提高檢測精度。

該方法在VisDrone、UAVDT和DOTA三個常用航空影像數據集上進行了測試。代碼將開源在: https://github.com/fyangneil 。

1. 研究背景

近年來一些先進的目標檢測器如Faster-RCNN,SSD,YOLO等已經在自然圖像上(例如MS COCO數據集)取得了重大成果。但這些檢測器在處理航空影像時速度和精度方面均效果不佳。主要是因為以下兩點原因:

(1)目標相對原圖來說尺度很小;

(2)目標通常稀疏且不均勻地分佈在整個圖像中。

所以,現代目標檢測器很難有效的利用外觀信息來區分物體與周圍背景或者類似物體。

為了解決尺度問題,當前的主流方法一般是把原圖分成一些小塊,然後在每個小塊上做檢測。但由於忽視了目標的稀疏性,在檢測中效率很低。在目標稀疏甚至沒有目標的高分辨率圖耗費了大量計算資源,如Figure 1所示。

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

Figure 1

我們可以看到,在航空圖像中,物體不僅稀疏、不均勻,而且在某些區域往往高度聚集。例如,行人通常集中在廣場和高速公路上的車輛。因此,提高檢測效率的一個直觀方法是將檢測器聚焦在這些簇區域,其中有大量的目標。

根據這一觀察,論文提出了一個聚類檢測網絡。通過將模板檢測和聚類檢測集成在一個統一的框架中來解決上述兩個問題。如Figure 2所示:

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

Figure 2

可以看ClusDet由三個關鍵部分構成,包括聚類提議子網絡(CPNet),尺度估計子網絡(ScaleNet),專用檢測網絡(DetecNet)。CPNet根據航空圖像的初始檢測結果生成一組目標聚類候選框,將其裁剪出來用於後續的精細檢測。為此,必須首先調整這些區域的大小以適合檢測器,這可能會導致簇區域中的物體過大或過小,從而降低檢測性能。

為了解決這個問題,作者提出了ScaleNet來估計每個聚類區域中目標合適的尺度,然後將簇區域送入檢測器之前按照這個尺度重新縮放。然後將每個簇區域送入DetecNet進行精細的檢測。最終將檢測結果融合到全局圖像上。

2. 具體方法

如Figure 2所示,航空圖像的檢測分為3個階段,簇區域提取,簇區域的精細檢測和檢測結果融合。

具體來說,在航空圖像經過特徵提取後,CPNet將特徵圖作為輸入,輸出簇區域。為了避免處理過多的簇區域,作者提出了一個迭代簇合並(ICM)模塊來減少噪聲。然後將簇區域和全局圖像的初始檢測結果輸入到ScaleNet,對每個簇區域估計合適的尺度。利用尺度信息將簇區域進行縮放,然後使用DetecNet進行精細檢測。最終結果是將每個簇區域的結果和原圖使用NMS融合後得到。

1、簇區域提取

1)簇提議子網絡(CPNet)

簇區域提取的核心是簇提議子網絡(CPNet)。CPNet在航空圖像高層次特徵上預測簇區域的位置和尺度。受到RPN的啟發,作者將CPNet表示為全卷積網絡。

具體來說,CPNet從特徵提取骨幹網絡中提取高層特徵圖作為輸入,使用兩個分支進行迴歸和分類。雖然CPNet和RPN有相似之處,但不同在於RPN是用於提取目標的候選區域,CPNet用於提取簇的候選區域。與單個目標相比,簇的規模要大得多,因此CPNet需要比RPN更大的感受野,所以本文將CPNet放在特徵提取網絡的頂部。

值得注意的是,CPNet的學習是有監督的過程,關於如何在公共數據集上產生簇的標籤信息請參見補充材料。

2)迭代簇合並(ICM)

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

Figure 3

如Figure 3(a)所示,我們觀察到CPNet產生的初始簇區域又密又亂。這些密集、雜亂的簇區域由於重疊度高、規模大,很難直接用於精細檢測,在實際應用中會造成極其沉重的計算負擔。

為了解決這個問題,作者提出了一個簡單有效的迭代簇合並模塊來精簡簇區域。讓ICCV 2019:航拍圖像中行人像素小、目標稀疏不均勻怎麼破?代表CPNet產生的ICCV 2019:航拍圖像中行人像素小、目標稀疏不均勻怎麼破?個簇區域集合,

ICCV 2019:航拍圖像中行人像素小、目標稀疏不均勻怎麼破?代表每個簇區域的分類置信度。使用預定義的最大重疊閾值ICCV 2019:航拍圖像中行人像素小、目標稀疏不均勻怎麼破?和合並後最大的簇區域數
ICCV 2019:航拍圖像中行人像素小、目標稀疏不均勻怎麼破?,可以使用算法1得到合併後的簇區域集合ICCV 2019:航拍圖像中行人像素小、目標稀疏不均勻怎麼破?

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

算法1

簡要的概述下這個算法,先選取分數最高的。然後選取和重疊度大於等於的區域和合並,將所有合併的區域從集合中刪除。繼續這個過程直到集合為空。執行上面的算法多次直到最後保留的簇區域數量為

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

。在Figure 3(b)中展示了經過ICM簇合並模塊後的結果。

2、簇區域上的精細檢測

在獲得簇區域後,利用專用檢測器對這些區域進行檢測。和現有的直接調整簇區域尺寸進行檢測的方法不同,作者提出了一個尺度估計子網絡(ScaleNet)用於估計簇區域中目標的尺度,避免了目標極端尺度過低降低檢測性能。基於估計的尺度,ClusDet在每個簇區域上執行分區和填充操作再進行檢測。

1)尺度估計子網(ScaleNet)

作者把尺度估計看成一個迴歸問題,並利用一組全連接網絡來構成ScaleNet。如Figure 4所示,

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

Figure 4

ScaleNet接收骨幹網絡提取的特徵映射,簇邊界框和全局圖像的初始檢測結果作為輸入,輸出簇中目標的相對尺度偏移。這裡初始檢測結果是從檢測子網獲得的。讓ICCV 2019:航拍圖像中行人像素小、目標稀疏不均勻怎麼破?為第i個簇的相對尺度偏移,其中ICCV 2019:航拍圖像中行人像素小、目標稀疏不均勻怎麼破?

ICCV 2019:航拍圖像中行人像素小、目標稀疏不均勻怎麼破?分別代表檢測目標的參考尺度和簇i中的目標框真實尺度的均值。因此ScaleNet的損失函數可以表示為公式(1):

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

其中

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

代表尺度偏移的估計值,

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

是網絡估計的尺度,

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

是簇的個數。

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

是Smooth L1損失函數。

2)分區和填充

使用分區和填充操作(PP)來確保目標的比例在合理的範圍內。給定簇目標框ICCV 2019:航拍圖像中行人像素小、目標稀疏不均勻怎麼破?,相應的估計目標尺度ICCV 2019:航拍圖像中行人像素小、目標稀疏不均勻怎麼破?和檢測器的輸入尺寸

ICCV 2019:航拍圖像中行人像素小、目標稀疏不均勻怎麼破?。我們可以估計檢測器在輸入空間中的目標尺度ICCV 2019:航拍圖像中行人像素小、目標稀疏不均勻怎麼破?。如果尺度
ICCV 2019:航拍圖像中行人像素小、目標稀疏不均勻怎麼破?大於某個範圍,則按比例填充簇區域,否則將其分為兩個相等的簇。注意,在最後整合結果時,填充部分被忽略。Figure 5展示了分區和填充的過程。

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

Figure 5

3、局部檢測融合成最終全局檢測結果

航空圖像的最終結果是通過簇區域的局部檢測結果和整個圖像的全局檢測結果使用NMS後處理得到的,如圖Figure 6所示,

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

Figure 6

局部檢測結果是使用論文的方法得到的,全局檢測結果是通過Figure 2中的目標檢測子網絡得到的。

3. 結果

作者使用Caffe2實現了ClusDet,將帶FPN的Faster-RCNN作為DetecNet子網絡PNet的結構使用5*5卷積和兩個1*1卷積分支搭建而成。ScaleNet,將特徵圖轉為特徵向量的全連接層的長度為1024。由於是迴歸任務,最後輸出的維度為1,代表尺度這個數值。本文將合併簇區域的重疊閾值設置為0.7。在VisDrone航空數據集上進行訓練時的結果如下表所示:

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

在UAVDT數據集上的性能測試結果為:

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

在DOTA數據集上的測試結果為:

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

可以看到在這三大航空圖像數據集上的AP值提升都是非常顯著的。

4. 結論

論文提出了一個聚類目標檢測網絡,將目標聚類和檢測統一在了一個端到端的框架中。

實驗表明,ClusDet能夠成功預測圖像中的聚類區域,顯著減少檢測區域的個數,提高檢測效率。而且,論文還提出了一種基於簇區域的目標尺度估計網絡來有效的檢測小目標。此外,實驗還證明了論文提出的ClusDet網絡隱式地對先驗上下文信息進行建模,提高了檢測精度。

通過大量的實驗,本文提出方法在三個公共航空圖像數據集上均取得了SOAT性能,證明了算法的有效性。

郵箱:jiawei@leiphone.com

ICCV 2019:航拍图像中行人像素小、目标稀疏不均匀怎么破?

數學與 AI「融通」 ,徐宗本院士進行超強“遷移學習”

張鈸院士:人工智能的魅力就是它永遠在路上 | CCAI 2019

Facebook 自然語言處理新突破:新模型能力趕超人類 & 超難 NLP 新基準

巴赫塗鴉創作者 Anna Huang 現身上海,傾情講解「音樂生成」兩大算法


分享到:


相關文章: