01.15 華南理工:面向文本識別的去耦注意力網絡

作者 | 王天瑋

本文對華南理工大學和聯想研究院共同完成,被AAAI-20錄用的論文《Decoupled Attention Network for Text Recognition》進行解讀。

AAAI 2020 | 华南理工:面向文本识别的去耦注意力网络

https://arxiv.org/abs/1912.10205

背景介紹

伴隨著深度學習的快速發展,近些年文本識別領域出現了許多新方法。注意力機制是當前文本識別最先進的方法之一,其在場景文本識別任務上取得了尤為出色的效果。

然而,當前注意力機制的對齊操作依賴於上一步的解碼信息,這就導致了一旦上一步解碼出錯或具有迷惑性,注意力機制的對齊將產生錯誤,且此錯誤會累積傳播。這一問題在較長的手寫文本上體現得較為明顯。

AAAI 2020 | 华南理工:面向文本识别的去耦注意力网络

為了解決這種情況,本文提出了一種去耦注意力網絡(DAN),該網絡將注意力的對齊階段從解碼器中解耦出來,即進行對齊時不再依賴於上一步的解碼信息。實驗表明,DAN在有效緩解了注意力機制的對齊錯誤問題,並在手寫和場景兩種文本識別場景上取得了SOTA或相當的效果。

方法概況

AAAI 2020 | 华南理工:面向文本识别的去耦注意力网络

DAN由三個模塊組成:特徵提取器(FE)、卷積對齊模塊(CAM)、去耦解碼器(DTD)。FE對輸入圖片提取多個尺度的特徵圖;CAM接收特徵提取器中的多尺度特徵,採用全卷積結構,輸出與特徵圖等尺寸的attention map;最後DTD解碼出識別結果。

卷積對齊模塊

卷積對齊模塊採用一個全卷積結構,由L層卷積組成。模塊的輸入融合了特徵提取過程中各個尺度的特徵,在反捲積階段,每層特徵會與卷積階段相應特徵進行加和。模塊的輸出是經過sigmoid函數激活後的maxT張attention map。之後每張attention map經過歸一化。maxT是解碼的最長時間步,即文本的最大字符數。在手寫長文本識別任務中,maxT的值可以設置為150、200;在單詞級別場景文本識別任務中,maxT的值可以設置為25。

AAAI 2020 | 华南理工:面向文本识别的去耦注意力网络

通過改變FE和CAM中卷積操作的步長,DAN可以在一維和二維形式之間靈活切換,以應對不同的應用場景。FE輸出特徵圖高度被壓為1,即一維識別形式時,DAN適用於規則的手寫長文本識別;在進行二維形式時,DAN適用於不規則的場景文本識別。在不同應用場景中,DAN靈活而高效,均取得了SOTA或相當的效果。

去耦解碼器

AAAI 2020 | 华南理工:面向文本识别的去耦注意力网络

去耦解碼器與其他注意力解碼器運算過程相似,將高維特徵圖與attention map進行加權求和後,對每個字符依次進行解碼。同時上一步的解碼結果會經過embedding,參與當前步解碼中,以加強語義學習。DAN的訓練僅需要字符類別標註,不需要每個字符的位置信息。

實驗

1.脫機手寫文本,在脫機手寫文本識別任務中,本文選擇了IAM和RIMES兩個數據集進行實驗。

(1)結果對比。從Table2可以看到DAN在兩個數據集上都效果出色。

AAAI 2020 | 华南理工:面向文本识别的去耦注意力网络

(2)消融實驗。本文對CAM模塊設計進行了討論,得到兩個結論:1. CAM的層數應該足夠深,才能達到較好的效果。2. 只要設置合理,輸出通道數maxT的大小對識別結果幾乎無影響。

AAAI 2020 | 华南理工:面向文本识别的去耦注意力网络
AAAI 2020 | 华南理工:面向文本识别的去耦注意力网络

(3)對消除對齊錯誤的深入分析。本文選擇了兩種經典的attention結構:Bahdanau’s attention和Luong’s attention,在IAM數據集上進行了進一步對齊效果分析。從Figure 6可以看出,DAN有效緩解了長文本上的對齊問題。

AAAI 2020 | 华南理工:面向文本识别的去耦注意力网络

2.場景文本識別,在該任務中,本文采用規則/不規則文本的七個數據集進行實驗,在實驗時使用了雙向解碼器。

結果對比如Table 5所示。可以看出,DAN在大部分數據集上取得了SOTA或相當的效果,同時,二維識別在不規則文本數據集上的識別效果明顯好於一維識別。

AAAI 2020 | 华南理工:面向文本识别的去耦注意力网络

總結

本文提出了一種去耦注意力網絡(DAN),用於解決注意力機制中由解碼問題造成的對齊錯誤累積傳播。DAN在手寫文本識別和場景文本識別兩種應用場景中均表現出了優越的效果。與之前的注意力機制識別方法相比,DAN更加靈活魯棒。

另外,值得一提的是,論文作者所在的研究團隊將本模型作為其中一個關鍵技術模塊,與別的識別技術進行集成,參加了今年ICDAR街景中英文招牌場景文字識別(ICDAR 2019-ReCTS)國際比賽,並榮獲了ICDAR 2019-ReCTS識別任務冠軍。


分享到:


相關文章: