CVPR 2020 | 針對VI-ReID的分層跨模態行人識別

CVPR 2020 | 針對VI-ReID的分層跨模態行人識別

本文介紹的是CVPR2020入選論文《Hi-CMD: Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Identification》,論文作者來自韓國科學技術院。

作者 | 張景俊

編輯 | 叢 末

通過對夜間視頻的監控進行跨模態行人識別是當下ReID方向的一個的難點,目前已經受到學術界的廣泛關注。

在此背景下,作者提出了一種分層跨模態行人識別(Hi-CMD)方法。為了實現該方法,作者引入了ID-preserving圖像的生成網絡和層次特徵學習模塊,通過這種網絡結構可有效地解決行人在不同姿勢和照明條件下進行ReID任務。

CVPR 2020 | 針對VI-ReID的分層跨模態行人識別

論文地址:
https://arxiv.org/pdf/1912.01230.pdf

1 任務概覽

目前學術界實現ReID的方法很多,主要思想可概括為通過RGB-RGB匹配的人形外觀,處理單模態相機捕獲的圖像。但是,需要注意的是,傳統的可見光相機是無法在光線昏暗的條件下捕捉到人的所有外表特徵。當遇到這種情況,大多數監控攝像機則會自動地從可見模式切換為紅外模式,所以有必要針對VI-ReID(Visible-infrared personre-identification)進行研究。

CVPR 2020 | 針對VI-ReID的分層跨模態行人識別

圖1(a)是作者針對VI-ReID任務,為解決跨模態行人在識別任務提出的一種新方法,簡記為Hi-CMD。從圖中可以看到,該方法從ID-discriminative和ID-excluded兩個角度出發,作者採用的網絡框架是ID-PIG網絡,框架圖如圖1(b)所示。

2 框架結構

CVPR 2020 | 針對VI-ReID的分層跨模態行人識別

圖2中X1代表的是visibleimage,X2代表的是 infrared image。對於每張待檢測的圖片,都對應著一個標籤y, X1和X2兩特徵向量之間的距離作者採用了歐式距離進行計算。對於ID-PIG網絡而言,它主要包含兩階段。

在第一階段,作者設計了一個原型編碼器和一個屬性編碼器,當i = 1時,對應的是visible images, i = 2時對應的是r infrared images。其中, 原型編碼器中的pi表示的是人物外形的向量,例如衣服的圖案和身體的輪廓形狀等,而屬性編碼器中的ai則代表的是在不同的姿勢和照明的情況下,諸如衣服樣式和外觀形態等的向量。在圖像的生成過程中,作者採用通過交換一對具有相同ID的兩幅圖像的ID-excluded來合成跨模態圖像。其中圖像交叉融合對應的損失函數為:

CVPR 2020 | 針對VI-ReID的分層跨模態行人識別CVPR 2020 | 針對VI-ReID的分層跨模態行人識別

為了最大限度的提高generationquality,在此基礎上,作者又分別添加了三個reconstruction損失,分別為same modality reconstruction loss、cycle reconstruction loss和code reconstruction loss,如圖3所示。其中same modality reconstruction loss主要是為了解決正則化問題,cycle reconstruction loss主要針對於無監督圖像轉換問題,code reconstruction loss主要是為了重構 ID-excluded。最終的損失函數表達式如下所示:

CVPR 2020 | 針對VI-ReID的分層跨模態行人識別

上述過程即為ID-PIG網絡的主要工作,通過該網絡結構對圖像進行的處理,將特徵值輸入到分層特徵學習模型(HFL),完成對跨模態行人VI-ReID任務,如圖2所示。

3 實驗效果

實驗是基於傳統的VI-ReID數據集上進行實驗的,分別為RegDB和SYSUMM01。其中RegDB數據集由2060張visible圖像和具有206種類型的2060 張far-infrared圖像作為訓練集,它的測試集包含206種類型和2060張visible圖像和2060張far-infrared圖像。

SYSU數據集包含22,258張visible圖像和具有395種類型的11,909張far-infrared圖像作為訓練集,它的測試集包括具有96種類型的3,803張near-infrared圖像和301張visible圖像。本文所有代碼均是基於Pytorch框架在NVIDIA Titan Xp GPU環境下運行的,模型評估指標作者採用了兩種業界主流的指標:CMC和mAP。作者採用了學習率為0.001的隨機梯度,對於ID-PIG網絡採用了學習率為0.0001的Adam優化器。

CVPR 2020 | 針對VI-ReID的分層跨模態行人識別 

表1給出了不同模型在兩種數據集上的實驗結果。作者分別針對HOG、LOMO、MLBP、GSM 、SVDNET 、PCB等方法進行實驗,發現他們的mAP都很低,最高的也不超過21,而本文提的Hi-CMD模型,它的mAP值在RegDB數據集上可高達66.04,效果秒殺一切,從而證實了該方法的優良性。

文章的創新點:

1、提出了種一種新穎的VI-ReID行人跨模態識別方法:Hi-CMD,與傳統的模型方法相比,該模型通過區分ID-discriminative和可見紅外圖像中的ID-excluded兩種因素,有效地減少了跨模態和模態內的差異。

2、利用ID-PIG網絡,避免可能因訓練數據不足而帶來的問題。

CVPR 2020 | 針對VI-ReID的分層跨模態行人識別


分享到:


相關文章: