10,商湯等提出升級版DETR目標檢測器

機器之心專欄

機器之心編輯部

今年 5 月底,Facebook AI 提出了DETR,利用 Transformer 去做目標檢測,該方法去除了許多目標檢測中的人工設計組件,同時展現了非常好的性能。但是,DETR 存在收斂速度慢和特徵分辨率有限等缺陷。為了解決這些問題,來自商湯研究院等機構的研究者提出了可變形 DETR,其注意力模塊僅關注於參考點附近的一小部分採樣點作為注意力模塊中的 key 元素。可變形 DETR 可以在比 DETR 少 9/10 的訓練輪數下,達到更好的性能(尤其是在小物體上)。在 COCO 基準上的大量實驗表明了該方法的有效性。

訓練輪數降至1/10,商湯等提出升級版DETR目標檢測器

論文鏈接:https://arxiv.org/abs/2010.04159

DETR 收斂慢、計算複雜度高的固有缺陷催生了可變形 DETR

當今的目標檢測器大多使用了人工設計的組件,如錨框生成、基於規則的訓練目標分配、非極大值抑制後處理等。所以它們不是完全端到端的。Facebook AI 提出的 DETR【1】無需這些手工設計組件,構建了第一個完全端到端的目標檢測器,實現了極具競爭力的性能。DETR 採用了一個簡單的結構,即結合了卷積神經網絡和 Transformer 【2】的編碼器-解碼器結構。研究人員利用了 Transformer 既通用又強大的關係建模能力來替代人工設計的規則,並且設計了恰當的訓練信號。

雖然DETR的設計非常有趣,而且性能也很好,但它自身也存在著如下兩個問題:

與現有的目標檢測器相比,它需要更長的訓練輪數才能收斂。比如,在 COCO 基準【3】上,DETR 需要 500 個 epoch 才能收斂,這比 Faster R-CNN【4】慢了 10 到20倍;

DETR 在檢測小物體上表現出了較差的性能。當今的目標檢測器通常利用了多尺度的特徵,從而小物體可以從高分辨率的特徵圖中檢測。但是對於 DETR 來說,高分辨率的特徵圖將帶來不可接受的計算複雜度和內存複雜度。

以上提到的問題可以主要是由於 Transformer 中的組件在處理圖像特徵圖時的天生缺陷。在初始化時,注意力模塊(如公式(1)所示)的注意力權重近似均勻地分佈在特徵圖的所有像素上,所以需要非常長的訓練輪數來學習將注意力權重集中於稀疏的有意義的位置。另一方面,Transformer 的編碼器中注意力權重計算的複雜度與像素個數的平方成正比。因而它需要非常高的計算和內存複雜度來處理高分辨率的特徵圖。

訓練輪數降至1/10,商湯等提出升級版DETR目標檢測器

在圖像領域,可變形卷積【5】是一個非常強大而且高效的機制,它將注意力集中於稀疏的空間位置。雖然天生避免了上面提到的這些問題。但它缺乏關係建模機制這一元素,而這是 DETR 成功的一大關鍵。

所以,在本文中,來自商湯研究院和中科大的研究者提出了可變形 DETR,解決了 DETR 收斂慢、計算複雜度高這兩大問題

可變形 DETR 方法和模型解讀

具體而言,可變形 DETR 結合了可變形卷積中的稀疏空間採樣的優勢和 Transformer 中的關係建模能力。研究者提出了可變形注意力模塊(如公式(2)所示),它關注於一小部分採樣的位置,作為從特徵圖所有像素中預先篩選出顯著的 key 元素。

訓練輪數降至1/10,商湯等提出升級版DETR目標檢測器

這一模塊天生可以被擴展到聚合多尺度特徵上(如公式(3)所示),而不需要 FPN【6】的幫助。

可變形 DETR 目標檢測器用(多尺度)可變形注意力模塊替換 Transformer 注意力模塊來處理特徵圖,如下圖 1 所示。

訓練輪數降至1/10,商湯等提出升級版DETR目標檢測器

圖 1:可變形 DETR 目標檢測器圖示。

由於可變形 DETR 的快速收斂性和計算、內存高效性,它打開了探索端到端目標檢測器的變種的可能性。此外,研究者探索了一個簡單而有效的

迭代式物體邊界框細化機制來進一步提高檢測性能。他們也嘗試了兩階段可變形 DETR,其中第一階段的 region proposals 也是由可變形 DETR 的一個變種生成,然後被進一步輸入到解碼器進行迭代式物體邊界框細化。

研究者在 COCO 基準【3】上的大量實驗展示了這一方法的有效性。與 DETR 相比,可變形 DETR10 訓練輪數降至 1/10(見下圖 2),但達到了更好的性能(尤其是在小物體上,見下表 1)。本論文中提出的兩階段可變形 DETR 變種可以進一步提升性能,可變形 DETR 的代碼也將開源。

實驗結果

下面將介紹論文中的一些主要實驗結果。

可變形 DETR 與 DETR 在 COCO 2017 val set 上的性能對比如下表 1 所示。

訓練輪數降至1/10,商湯等提出升級版DETR目標檢測器

表 1:可變形 DETR 與 DETR 在 COCO 2017 val set 上的比較。

可變形 DETR 和 DETR 的收斂曲線對比如下圖 2 所示。

訓練輪數降至1/10,商湯等提出升級版DETR目標檢測器

圖 2:可變形 DETR 與 DETR 的收斂曲線對比。

可變形注意力模塊的控制變量實驗如下表 2 所示。

訓練輪數降至1/10,商湯等提出升級版DETR目標檢測器

表 2:控制變量實驗。

可變形 DETR 與當前最為先進的目標檢測器在 COCO 2017 test-dev 上的性能對比如下表 3 所示。

訓練輪數降至1/10,商湯等提出升級版DETR目標檢測器

表 3:可變形 DETR 與當前最先進的方法在 COCO 2017 test-dev 上的比較。

參考文獻

【1】Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. In ECCV, 2020.

【2】Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, 2017.

【3】Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In ECCV, 2014.

【4】Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In NeurIPS, 2015.

【5】Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In ICCV, 2017.

【6】Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In CVPR, 2017a.


分享到:


相關文章: