任意形狀文本檢測的像素聚合網絡

ICCV2019 | 任意形狀文本檢測的像素聚合網絡

作者 | 劉崇宇

本文簡要介紹了2019年7月被ICCV錄用的論文“Efficient and AccurateArbitrary-Shaped Text Detection with Pixel Aggregation Network”的主要工作。該論文主要解決了自然場景文本檢測中的兩個問題:一是如何權衡在自然場景任意形狀文本檢測的速度與精度,二是不規則文本的精準檢測。

一、研究背景

自然場景文本檢測是計算機視覺領域一項基礎而又有挑戰性的任務,它在現實生活中也有著廣泛的應用。

近年來隨著深度學習的發展,自然場景文本檢測也取得了突破性的進展。在任意四邊形文本的檢測上,目前的很多方法比如EAST是非常高效的。但是,自然場景中存在著大量的任意形狀而且不規則的文本,儘管針對這些不規則文本也有很多檢測方法能得到很好的結果,但其檢測速度會由於模型過於龐大或者複雜的後處理變得很慢,這會限制這些方法在現實生活中的應用。

該論文針對任意形狀文本檢測考慮瞭如何權衡模型的速度和性能的問題,提出了相應的檢測模型—--像素聚合網絡PAN,它在大幅提高任意形狀文本檢測性能的同時也顯著提高了計算速度。

二、PAN原理簡述

ICCV2019 | 任意形状文本检测的像素聚合网络

Fig.1. The overall pipeline of PAN

Fig.1 是像素聚合網絡PAN的流程圖。PAN的主要流程可以分為簡單的兩步,首先通過一個分割網絡預測得到文本區域,文本核以及每個像素的相似向量;然後通過預測的核重建文本實例。

其中,文本區域是為了描述文本的完整形狀,文本核參數為了區分不同的文本,預測每個像素的相似向量也是為了保證同一文本像素的相似向量和文本核距離夠小。

ICCV2019 | 任意形状文本检测的像素聚合网络

Fig.2. Overall architecture of PAN

Fig.2是PAN的整體結構,它主要可以分為三個部分:主幹網絡、Segmentation Head以及可學習的後處理算法。

為了減少模型的計算量並提高效率,像素聚合網絡PAN使用了輕量級的ResNet18作為主幹網絡。

但單純使用這樣一個淺層的主幹網絡會使得其不具備足夠的感受野,而且不能提取到足夠強的特徵。為了解決這樣的問題,PAN在主幹網絡後添加了一個Segmentation Head去增強特徵表達。Segmentation Head包含了特徵金字塔增強模塊(FPEM)和特徵融合模塊 (FFM),經過這個結構,PAN預測得到了上述提到的文本區域,核以及相似向量。

最後,PAN使用一個簡單而又可學習的後處理算法(Pixel Aggregation)得到最終的結果。

ICCV2019 | 任意形状文本检测的像素聚合网络

Fig.3. The details of FPEM

Segmentation Head中的特徵金字塔增強模塊(FPEM)是一個U形的模塊,Fig.3展示了FPEM的結構細節,它包含了上採樣增強和下采樣增強兩個階段。

上採樣增強作用於輸入的特徵金字塔,它以32、16、8、4個像素為步長在特徵圖上迭代增強,而下采樣增強則是作用於上一階段所產生的的特徵金字塔並得到FPEM最終的輸出,該階段的增強步長為4-32。

FPEM有如下兩個優勢:第一,FPEM是可級聯的,N個FPEM級聯後的模塊可以能夠很好的融合不同尺度的特徵,並且特徵的感受野也會增大;第二,FPEM是由分離的只需要最小計算量的卷積組成,所以它的運算量很低,只有傳統FPN的1/5。

ICCV2019 | 任意形状文本检测的像素聚合网络

Fig.4. The details of FFM

Segmentation Head中的特徵融合模塊(FFM)的結構細節如Fig.4所示,它能夠將不同深度的FPEMs提取到的特徵融合在一起,以此融合低級和高級的語義信息。FFM首先將相應尺寸的特徵圖逐像素相加(Element-wise),然後得到的特徵會被上採樣並連接成一個只有4ⅹ128的特徵圖。

經過Segmentation Head預測得到了文本區域、文本核和相似向量。文本區域雖然保留了文本的完整形狀但也會出現區域重疊的情況,文本核可以區分不同的文本,但是它並不是完整的文本。

要得到完整的文本實例,PAN要把文本區域中的像素融合到文本核,於是提出了一個可學習的後處理算法----像素聚合(Pixel Aggregation)來指引不同的像素聚合到正確的核。

在像素聚合中,借鑑了聚類的思想,將文本實例的核視為聚類的中心,文本區域的像素是聚合樣本,要將文本像素聚合到對應的核,則文本像素和相同文本的核的距離要很小。於是在訓練階段,用如下損失函數來引導像素聚類的訓練:

ICCV2019 | 任意形状文本检测的像素聚合网络

此外,聚類中心也需要一直劃分清楚,不同文本的核需要保持足夠的距離。因此在訓練時也用如下損失函數引導訓練。

ICCV2019 | 任意形状文本检测的像素聚合网络

三、實驗結果

TABLE 1. The results on SCUT-CTW1500.

ICCV2019 | 任意形状文本检测的像素聚合网络

TABLE 2. The results on Total-Text.

ICCV2019 | 任意形状文本检测的像素聚合网络

TABLE 3. The results on ICDAR 2015.

ICCV2019 | 任意形状文本检测的像素聚合网络

TABLE 4. The results on MSRA-TD500.

ICCV2019 | 任意形状文本检测的像素聚合网络

本文提出的PAN在不規則文本數據集SCUT-CTW1500和Total-Text以及任意四邊形文本數據集ICDAR 2015和MSRA-TD500上表現非常出色。

PAN不僅在檢測結果上達到了state-of-the-art的效果,而且在速度上比之前的方法都要快很多。

Fig.5展示了不同檢測方法在SCUT-CTW1500的檢測速度和表現的比較,可以看到

PAN是效果最優且速度最快的。

ICCV2019 | 任意形状文本检测的像素聚合网络

Fig.5. The performance and speed on curved text dataset SCUT-CTW1500.

四、結論

這篇論文考慮瞭如何權衡場景文本檢測中精度和速度這一重要問題,提出了一個可以實時檢測任意形狀文本的高效自然場景文本檢測器PAN

PAN

使用了輕量的主幹網絡,並加入了包含特徵金字塔增強模塊和特徵融合模塊的Segmentation Head以增強特徵表達,而且也不會帶來額外的龐大計算量。

此外提出了可學習的後處理算法----Pixel Aggregation去預測文本核與周圍像素的相似向量以得到完整的文本區域,避免了以往方法中繁瑣的後處理方式。這些方法使得PAN在各數據集上取得最優結果的同時,檢測的速度也能達到最優。

參考文獻

[1] Wenhai Wang , Enze Xie and Xiaoge Song.Efficient and AccurateArbitrary-Shaped Text Detection with Pixel Aggregation Network. In ICCV, 2019.

[2] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick,Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networksfor object detection. In CVPR, 2017.

[3] Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang,Shuchang Zhou, Weiran He, and Jiajun Liang. EAST: an efficient and accuratescene text detector. In CVPR, 2017.

[4] Xiang Li, Wenhai Wang, Wenbo Hou, Ruo-Ze Liu, Tong Lu, Jian Yang. Shape robust text detection withprogressive scale expansion network. In CVPR, 2019.

[5] Yuliang Liu, Lianwen Jin, Shuaitao Zhang, Sheng Zhang, Curved scene text detectionvia transverse and longitudinal sequence connection, Pattern Recognition,2019.

ICCV2019 | 任意形状文本检测的像素聚合网络


分享到:


相關文章: