本文介紹的是CVPR2020論文《CentripetalNet: Pursuing High-quality Keypoint Pairs for Object Detection》,作者來自商湯 。
作者 | 商 湯
論文地址:https://arxiv.org/pdf/2003.09119.pdf代碼地址:https://github.com/KiveeDong/CentripetalNet1
導讀
CVPR 2020上,商湯移動智能事業群-3DAR-身份認證與視頻感知團隊提出了基於向心偏移的anchor-free目標檢測網絡centripetalnet,為基於關鍵點的目標檢測方法研究帶來了新思路。Centripetalnet在大型公開數據集MS-COCO上達到了目前anchor-free檢測模型中的最優效果。
2 動機
1、現有的基於關鍵點的目標檢測網絡(如CornerNet、CenterNet、ExtremeNet等)通過使用關聯嵌入向量進行物體關鍵點的匹配,然而關聯嵌入向量具有訓練難度大且容易混淆同類物體的缺點,這會造成許多錯誤的關鍵點匹配從而導致錯誤的檢測結果。因此本文提出使用關鍵點的向心偏移(centripetal shift)來進行匹配,其背後的思想是同一個物體的不同關鍵點應該對應同一個物體中心點。從下圖可以直觀的看到利用向心偏移匹配相對於關聯嵌入向量在避免錯誤匹配方面的優勢。
2、我們採用物體邊界框的兩個角點作為關鍵點,然而角點位置缺乏物體信息,現有方法使用角點池化的方法將物體邊界信息聚合到角點位置,然而我們發現角點位置依然缺乏物體內部信息,而這些物體內部特徵在角點位置形成了如下圖的“十字星(cross-star)”,因此我們設計了十字星可變形卷積(cross-star deformableconvolution),成功地提取了這些物體內部信息,從而優化了角點位置的物體特徵,提高了模型性能。
3 模型設計
CetripetalNet可以分為4個部分:特徵提取網絡,角點檢測與特徵調節,向心偏移模塊,實例分割模塊,整體架構如下圖所示。
1、特徵提取網絡:
CentripetalNet和CenterNet、CornerNet一樣,採用Hourglass-104和Hourglass-52作為特徵提取網絡。
2、角點檢測和特徵調節模塊
左上角點和右下角點的這部分模塊是獨立的。角點檢測採用關鍵點預測的方法,用角點的ground truth構建要回歸的角點熱力圖並加以高斯化,讓網絡輸出迴歸該熱力圖從而學習預測角點位置;特徵調節即是十字星可變形卷積,通過利用角點池化之後的特徵預測十字星幾何信息(guiding shift),然後從十字星幾何信息中學習可變形卷積的採樣點偏移。
3、向心偏移模塊
首先使用經過十字星可變形卷積調節之後的特徵預測每個角點的向心偏移,接著結合角點位置,完成角點的匹配,得到檢測到的物體邊界框。
4、實例分割模塊
使用特徵提取網絡得到的物體特徵圖和3得到的物體檢測框作為輸入,利用RoIAlign提取每個感興趣區域的特徵,然後利用多個卷積和反捲積層預測物體掩膜。
4
實驗分析1、在COCO test-dev上,
CentripetalNet達到了anchor-free模型中的最優檢測效果,同時在實例分割方面的表現也具有一定競爭力。2、向心偏移相對於關聯嵌入向量的優勢為了比較向心偏移和關聯嵌入向量的性能,我們使用特徵提取網絡為Hourglass-52的CornerNet作為基準模型,然後將關聯嵌入向量直接替換為向心偏移進行比較。為了公平起見,我們還將關聯嵌入的向量增加為2維,這和向心偏移的維度一致,從下表可以看到,基於向心偏移的方法性能明顯更優。
3、十字星可變形卷積的有效性
我們比較了十字星可變形卷積和其他特徵調節方法的性能差異(包括普通可變形卷積以及RoIConv)
我們還比較了幾種特徵調節方法的採樣點位置,發現只有十字星可變形卷積可以很好地採樣到十字星上的特徵信息。
4、和現有算法的可視化比較
下圖三行從上至下分別是CornerNet,CenterNet和CentripetalNet
5、實例分割效果可視化
CVPR 2020 系列論文解讀
01. PolarMask:將實例分割統一到FCN,有望在工業界大規模應用
02. RandLA-Net:大場景三維點雲語義分割新框架(已開源)
03. 17篇入選CVPR 2020,騰訊優圖 9 篇精選論文詳解
04. 化繁為簡,弱監督目標定位領域的新SOTA - 偽監督目標定位方法
05. 挑戰 11 種 GAN的圖像真偽,DeepFake鑑別一點都不難
06. 看圖說話之隨心所欲:細粒度可控的圖像描述自動生成
07. PQ-NET:序列化的三維形狀生成網絡
08. 視覺-語言導航新篇章:真實場景下的遠程物體定位導航任務
09. 室內設計師失業?針對語言描述的自動三維場景設計算法
10. 深度視覺推理2.0:組合式目標指代理解
11. 用無監督強化學習方法來獲得遷移能力
12. 細粒度文本視頻跨模態檢索
13. IR-Net: 信息保留的二值神經網絡(已開源)
14. 曠視研究院提出Circle Loss,革新深度特徵學習範式
15. ACGPN: 基於圖像的虛擬換裝新思路
16. 雙邊分支網絡BBN:攻堅長尾分佈的現實世界任務
17. 基於點雲的3D物體檢測新框架
18. MetaFuse:用於人體姿態估計的預訓練信息融合模型
19. 針對VI-ReID的分層跨模態行人識別
20. 8比特數值也能訓練模型?商湯提出訓練加速新算法
21. 挖坑等跳,FineGym,一個面向細粒度動作分析的層級化高質量數據集
22. 神奇的自監督場景去遮擋
23. 基於空間修剪的 NAS 算法
24. 可擴展且高效,谷歌提出目標檢測“新標杆”
AI 科技評論系列直播
1、ACL 2020 - 復旦大學系列解讀
直播主題:不同粒度的抽取式文本摘要系統
主講人:王丹青、鐘鳴
回放鏈接:http://mooc.yanxishe.com/open/course/804(回放時間:4月26日下午10點)
直播主題:結合詞典的中文命名實體識別【ACL 2020 - 復旦大學系列解讀之(二)】
主講人:馬若恬, 李孝男
直播時間:4月 26 日,(週日晚) 20:00整。
直播主題:ACL 2020 | 基於對抗樣本的依存句法模型魯棒性分析
【ACL 2020 - 復旦大學系列解讀之(三)】
主講人:曾捷航
直播時間:4月 27 日,(週一晚) 20:00整。
2、ICLR 2020 系列直播
直播主題:ICLR 2020丨Action Semantics Network: Considering the Effects of Actions in Multiagent Systems
主講人:王維壎
回放鏈接:http://mooc.yanxishe.com/open/course/793
直播主題:ICLR 2020丨通過負採樣從專家數據中學習自我糾正的策略和價值函數
主講人:羅雨屏
回放鏈接:http://mooc.yanxishe.com/open/course/802
直播主題:ICLR 2020丨分段線性激活函數塑造了神經網絡損失曲面
主講人:何鳳翔
回放鏈接:http://mooc.yanxishe.com/open/course/801
如何加入?
閱讀更多 AI科技評論 的文章