李沐團隊提出最強ResNet改進版,多項任務達到SOTA | 已開源

十三 發自 凹非寺
量子位 報道 | 公眾號 QbitAI

在圖像處理領域中,近年來的新模型可謂是層出不窮。

但在大多數的下游任務中,例如目標檢測、語義分割,依舊還是用ResNet或其變體作為骨幹網絡。

而最近,亞馬遜李沐團隊便提出了堪稱“ResNet最強改進版”的網絡——ResNeSt

從名字中不難看出,是引入了模塊化的分散注意力模塊,可以讓注意力跨特徵圖(feature-map)組。

李沐團隊提出最強ResNet改進版,多項任務達到SOTA | 已開源

那麼,ResNeSt到底有多強?

  • ResNeSt-50在224×224的ImageNet上,實現了81.13%的TOP-1精度,比之前最好的ResNet變體精度高出1%以上。
  • 簡單地用ResNeSt-50替換ResNet-50骨幹,可以讓MS-COCO上的FasterRCNNNN的mAP,從39.25%提高到42.33%;ADE20K上的DeeplabV3的mIoU,從42.1%提高到45.1%。

這些改進對下游任務有很大的幫助,包括目標檢測、實例分割和語義分割。

就連李沐也發朋友圈,呼籲小夥伴們“一鍵升級”。

李沐團隊提出最強ResNet改進版,多項任務達到SOTA | 已開源

更讓人驚喜的是,這項工作已開源!

最強ResNet變體:多項任務取得“大滿貫”

現在,我們具體來看下ResNeSt在具體任務中的表現。

圖像分類

第一個實驗研究了ResNeSt在ImageNet 2012數據集上的圖像分類性能。

通過將ResNeSt和其他50層和101層配置、類似複雜度的ResNet變體作比較,TOP-1精度達到了最高,如下表所示。

李沐團隊提出最強ResNet改進版,多項任務達到SOTA | 已開源

還與不同大小的CNN模型做了比較。

採用了256×256的ResNeSt-200, 和320×320的ResNeSt-269。對於輸入大小大於256的模型,採用雙三次上採樣策略(Bicubic upsampling strategy)。

從下表不難看出,與基於NAS發現的模型相比,ResNeSt具有更好的準確性和延遲權衡。

李沐團隊提出最強ResNet改進版,多項任務達到SOTA | 已開源

目標檢測

接下來,是在目標檢測上的性能。

所有的模型,都是在COCO-2017訓練集上訓練的118k圖像,並在COCO-2017驗證集上用5k圖像進行評估。

使用FPN、同步批處理歸一化(synchronized batch normalization)和圖像尺度增強,來訓練所有模型。

為了方便比較,簡單地用ResNeSt替換了vanilla ResNet骨幹,同時使用默認設置的超參數。

李沐團隊提出最強ResNet改進版,多項任務達到SOTA | 已開源

與使用標準ResNet的基線相比,ResNeSt的骨幹在Faster-RCNN和CascadeRCNN上,都能將平均精度提高3%左右。

這就說明ResNeSt的骨幹網絡具有良好的泛化能力,並且可以很容易地遷移到下游任務中。

值得注意的是,ResNeSt50在Faster-RCNN和Cascade-RCNN檢測模型上都優於ResNet101,而且使用的參數明顯較少。

實例分割

在實例分割任務中,以ResNeSt-50和ResNeSt-101為骨幹,對Mask-RCNN和Cascade-Mask-RCNN模型進行評估。

實驗結果如下表所示,對於Mask-RCNNN來說,ResNeSt50的box/mask性能增益分別為2.85%/2.09%,而ResNeSt101則表現出了更好的提升,達到了4.03%/3.14%。

對於Cascade-Mask-RCNN,切換到ResNeSt50或ResNeSt101所產生的增益分別為3.13%/2.36%或3.51%/3.04%。

李沐團隊提出最強ResNet改進版,多項任務達到SOTA | 已開源

這就表明,如果一個模型由更多的Split-Attention模塊組成,那麼它的效果會更好。

語義分割

在語義分割下游任務的轉移學習中,使用DeepLabV3的GluonCV實現作為基準方法。

從下表中不難看出,ResNeSt將DeepLabV3模型實現的mIoU提升了約1%,同時保持了類似的整體模型複雜度。

李沐團隊提出最強ResNet改進版,多項任務達到SOTA | 已開源

值得注意的是,使用ResNeSt-50的DeepLabV3模型的性能,比使用更大的ResNet-101的DeepLabV3更好。

ResNeSt:注意力分割網絡

性能如此卓越,到底是對ResNet做了怎樣的改良呢?

接下來,我們就來揭開ResNeSt的神秘面紗。

正如剛才我們提到的,ResNeSt是基於ResNet,引入了Split-Attention塊,可以跨不同的feature-map組實現feature-map注意力。

Split-Attention塊是一個計算單元,由feature-map組和分割注意力操作組成。下2張圖便描述了一個Split-Attention塊,以及cardinal group中的split-Attention。

李沐團隊提出最強ResNet改進版,多項任務達到SOTA | 已開源

李沐團隊提出最強ResNet改進版,多項任務達到SOTA | 已開源

從上面的2張圖中不難看出,都有split的影子。比如 K(k) 和 R(r) 都是超參數,也就是共計 G = K*R 組。

除此之外,也可以與SE-Net和SK-Net對比著來看。

其中,SE-Net引入了通道注意力(channel-attention)機制;SK-Net則通過兩個網絡分支引入特徵圖注意力(feature-map attention)。

ResNeSt和SE-Net、SK-Net的對應圖示如下:

李沐團隊提出最強ResNet改進版,多項任務達到SOTA | 已開源

研究人員介紹

李沐團隊提出最強ResNet改進版,多項任務達到SOTA | 已開源

李沐,亞馬遜首席科學家,加州大學伯克利分校客座助理教授,美國卡內基梅隆大學計算機系博士。

專注於分佈式系統和機器學習算法的研究。他是深度學習框架MXNet的作者之一。

曾任機器學習創業公司Marianas Labs的CTO和百度深度學習研究院的主任研發架構師。

李沐有著豐富的研究成果,曾先後在國內外主流期刊上發表多篇學術論文,其中《DiFacto — Distributed Factorization Machines 》在ACM國際網絡搜索和數據挖掘(WSDM)大會上被評為最佳論文獎。

傳送門

論文地址:

https://hangzhang.org/files/resnest.pdf

GitHub項目地址:

https://github.com/zhanghang1989/ResNeSt

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態


分享到:


相關文章: