ACM MM|中山大學等提出HSE:基於層次語義嵌入模型的精細化物體分類

機器之心發佈

作者:Tianshui Chen、Wenxi Wu、Yuefang Gao、Le Dong、Xiaonan Luo、Liang Lin

細粒度識別一般需要模型識別非常精細的子類別,它基本上就是同時使用圖像全局信息和局部信息的分類任務。在本論文中,研究者們提出了一種新型層次語義框架,其自頂向下地由全局圖像關注局部特徵或更具判別性的區域。

人類在識別物體類別時,往往不僅僅根據其外觀信息,還依賴於在日常生活以及專業學習過程中獲取的先驗知識。如何有效利用這些先驗知識引導和約束網絡學習是目前一個重要的研究難點。針對於精細化物體識別,其類別可以按照不同程度進行概念抽象,並形成了層次化的分類結構。這種結構是層級間豐富語義知識的集中體現,如層級間的關聯繫,它可以作為先驗知識規範化語義空間,有效引導和約束深度網絡的學習。近日,中山大學、華南農業大學、電子科技大學以及桂林電子大學聯合研究團隊提出層次化語義嵌入模型,有效利用層次化的分類結構引導網絡特徵學習以及約束其預測空間,在細粒度圖像識別問題上取得最優的性能。

論文地址:https://arxiv.org/pdf/1808.04505.pdf

模型介紹

一般來說,物體的類別可以按照不同程度進行概念抽象,由此形成了層次化的分類結構。例如,鳥類 (鳥綱) 可以按照目、科、屬、種四個層級分類。這種層次化信息編碼了不同層級的類別之間的關聯關係,可以作為一種先驗信息有效的規範語義空間。比如說,若要識別給定物體的細粒度類別 (例如,鳥「種」的類別),作者可能先識別出它的超類 (例如,鳥「屬」的類別)。然後,作者會更傾向於專注在那些屬於這個超類的細粒度類別,進而專注於可以為區分這些細粒度類別提供更多判別信息的物體區域。然而,目前的方法僅僅著眼於單個層級的類別,卻忽略了豐富的結構化信息。

在本論文的工作中,作者同時預測了分類層次結構中各層級的類別,並將這種結構化關聯信息集成到深層神經網絡中,以逐步約束標籤預測和指導特徵表達學習。為此,作者提出了一種新的層次語義嵌入框架(Hierarchical Semantic Embedding,簡稱 HSE),它可以自頂向下地逐層預測每個層級的類別的分數向量。在預測每個層級的類別時,HSE 框架將上一層級預測所得的得分向量作為先驗信息嵌入網絡,以學習更細緻的圖像特徵表達。在此,作者引入一種新的語義引導的視覺注意力機制來實現,這使得 HSE 框架可以定位到更具有判別性的區域以更好的識別物體。在訓練過程中,對於每一層級,作者還利用其上一層級預測所得的得分向量作為軟目標,去約束該層級的標籤預測,從而使該層級的預測結果與其上一層級的預測結果符合層次結構的關聯規則。方法的整體框架圖如圖 1 所示。

ACM MM|中山大学等提出HSE:基于层次语义嵌入模型的精细化物体分类

圖 1. 層次語義知識嵌入框架整體示意圖

數據集介紹

為了評估提出的框架其有效性,作者擴展了 Caltech-UCSD birds 數據集 (Extended CUB),將其組織成具有目、科、屬、種四個層級分類結構。同時,作者還構建一個大規模的蝴蝶數據集 (Butterfly-200),其類別標註同樣覆蓋了四個層級。

Butterfly-200 數據集涵蓋 200 種常見的蝴蝶,並根據生物學分類原理進一步的聚成 116 個屬,23 個亞科,5 個科。Butterfly200 共收納了超過了 25,279 張蝴蝶圖片,主要包括從互聯網利用關鍵詞檢索得到的自然圖片,以及從實驗室拍攝的到的標準圖片。為了數據集的精確性和可靠性,這些圖片由華南農業大學昆蟲學系的四位專家進行二次甄別。

Caltech-UCSD birds 數據集是目前精細化圖像分類最常用的評測基準數據集,該數據集包括涵蓋 200 類鳥的 11,788 張圖像。該論文根據生物學分類原理進一步把這 200 類聚成 13 個目,37 個科,122 個屬。

圖 2 展示來自這兩個數據集的一些樣本以及對應層次化標註。

ACM MM|中山大学等提出HSE:基于层次语义嵌入模型的精细化物体分类

圖 2. 來自 Extended CUB(第 1,2 行) 和 Butterfly-200(第 3,4 行) 的樣本以及對應層次化標註。

實驗結果

該論文在 Extended CUB,butterfly-200,以及最新發布的 VegFru 上進行實驗。

組件分析

作者首先設計兩個沒有引入語義嵌入的基準模型 (baseline 和 baseline+backtrack),如表 1,在 Extended CUB 和 Butterfly-200 的數據集上,HSE 框架在兩個數據集上的性能始終優於兩組對比的基準方法。

ACM MM|中山大学等提出HSE:基于层次语义嵌入模型的精细化物体分类

表 1. HSE 框架與其它引入額外信息的算法在 CUB 數據集上的首位識別準確率對比。

HSE 框架與兩種基準方法的比較證明了它作為一個整體的有效性。實際上,HSE 框架從兩個方面整合了語義相關信息,即:語義嵌入表示學習 (Semantic Embedding Representation Learning,簡稱 SERL) 和語義引導標籤正規化 (Semantic Guided Label Regularization,簡稱 SGLR)。作者同樣評估這兩部分的實際貢獻。作者分別去掉 SERL(Ours w/o SERL) 和 SGLR(Ours w/o SGLR) 模塊進行組件分析,如表 2 所示,去掉任一模塊都會在兩個數據集上的所有級別上的性能明顯下降。

物體精細化識別性能對比

作者在 CUB 和 VegFru 兩個數據集上和目前最先進的方法進行比較,結果如表 2 和表 3 所示。在兩個數據集上,HSE 框架均取得了優於當前最先進方法的性能。

ACM MM|中山大学等提出HSE:基于层次语义嵌入模型的精细化物体分类

表 2. HSE 框架與其它最先進的算法在 CUB 數據集上的首位識別準確率對比。

ACM MM|中山大学等提出HSE:基于层次语义嵌入模型的精细化物体分类

表 3. HSE 框架與其它先進方法在 Vegfru 數據集上的性能比較。

代碼,模型和數據鏈接:https://github.com/HCPLab-SYSU/HSE

引用:

[1] Tianshui Chen, Wenxi Wu, Yuefang Gao, Le Dong, Liang Lin, Fine-Grained Representation Learning and Recognition by Exploiting Hierarchical Semantic Embedding, in ACM MM, 2018.

[2] Catherine Wah, Steve Branson, Peter Welinder, Pietro Perona, and Serge Belongie. The caltech-ucsd birds-200-2011 dataset. California Institute of Technology, 2011.

[3] Saihui Hou, Yushan Feng, and Zilei Wang. VegFru: A Domain-Specific Dataset for Fine-grained Visual Categorization. In ICCV, 2017.

中山大學人機物體智能融合實驗室有著深厚的學術底蘊和強大的人才支持,指導學生在 PAMI,IJCV,CVPR,ICCV 等國際頂級的期刊、會議上發表多篇論文,論文具有國際影響力;在 ImageNet、全國研究生智慧城市技術與創意設計大賽、全國並行應用挑戰賽等頂尖賽事中屢獲殊榮。多年來,實驗室多名優秀學子紛紛走向了國際頂級學府和知名 AI 企業。

✄------------------------------------------------

加入機器之心(全職記者 / 實習生):[email protected]

投稿或尋求報道:content@jiqizhixin.com

廣告 & 商務合作:[email protected]


分享到:


相關文章: