ECCV 2018｜曠視科技提出GridFace：通過學習局部單應變換實現人臉校正科技頭條網

ECCV 2018｜曠視科技提出GridFace：通過學習局部單應變換實現人臉校正

機器之心發佈

作者：Erjin Zhou、Zhimin Cao、Jian Sun

全球計算機視覺三大頂會之一 ECCV 2018（European Conference on Computer Vision）即將於 9 月 8 -14 日在德國慕尼黑拉開帷幕，曠視科技有多篇論文被此大會接收。在這篇論文中，曠視科技提出的一種通過學習局部單應變換實現人臉校正的全新方法——GridFace。

論文名稱：《GridFace: Face Rectification via Learning Local Homography Transformations》

ECCV 2018｜旷视科技提出GridFace：通过学习局部单应变换实现人脸校正

論文鏈接：https://arxiv.org/abs/1808.06210

導語

大千世界之中，人臉可謂是機器視覺識別技術的「第一號」目標，人臉識別順理成章成為人工智能領域搶佔的技術高地；在這場最為激烈的機器視覺技術制高點的爭奪戰中，人臉識別技術不斷突破向前，甚至趕越人類水平。但是，在不受限環境中，人臉識別仍不能萬無一失，尤其是在人臉幾何變形的情況下。

有鑑於此，曠視科技創新性地提出 GridFace，通過學習局部單應變換減少人臉變形，提升識別性能。一句話，先校正，再識別，過硬的校正技術使得人臉識別性能得到顯著提高。相關實驗結果已證明該方法的有效性和高效性。這一原創技術將進一步強化曠視科技攻克四大識別目標（人、臉、車、字）的能力，有利於補足 AI 原創技術矩陣，達成 AI+IoT 閉環戰略，持續為數字經濟發展提供新動能。

圖 1：GridFace 人臉校正實例。

背景

儘管深度學習在學界、業界均已獲得重大進展，但是依然無法聲稱，人臉識別技術的應用落地毫不受限。自然場景中，人臉識別面臨的現有挑戰之一是人臉幾何變形（facial geometric variations）。人臉在角度和對齊方面（由人臉檢測邊界框定位引入）的變形將從根本上影響人臉的表徵和識別的性能。

解決這一問題的常用方法之一是通過 2D 變換把人臉關鍵點標定到預定義模版（即 2D 平均人臉關鍵點或者 3D 平均人臉模型）；但是這種預處理方法並不是針對識別優化的，並嚴重依賴手工調節的參數和精確的人臉關鍵點。

為此，近期一些工作藉助空間變換網絡（Spatial Transformer Network/STN）實現端到端優化，可以兼顧人臉對齊和檢測/識別。但是，通過 STN 學習的變換使用整體參數模型，只能捕捉一些粗糙的幾何信息，比如人臉定向，並有可能校正結果的明顯扭曲。

設計思想

有鑑於此，本文提出一種全新的方法，稱之為 GridFace，以減少人臉幾何變形，提升識別性能。如圖 2 所示，該系統包含兩個模塊：校正模塊和識別模塊。

圖 2：GridFace 圖示。

在校正模塊中，研究者通過一個人臉校正網絡評估一組局部單應變換（local homography transformations），以校正輸入的人臉圖像。研究者還通過一組可變形平面單元近似 3D 標準人臉形狀。當輸入一張帶有幾何變形的人臉，評估其局部單應變換，以分別建模每個單元的扭曲。為鼓勵生成標準的視角，研究者加入一個基於標準視角人臉分佈的正則化。這一自然的人臉分佈並未被顯式建模。

相反，受到先前工作的啟發，研究者通過一個降噪自編碼器（Denoising Autoencoder）評估概率密度對數的梯度。識別模塊把已校正的圖像作為輸入，並通過度量學習學習可判別性表徵。

本文首先給出了這一方法的定量和定性結果，並在 4 個頗具挑戰性的公開基準 LFW、YTF、IJB-A 和 Multi-PIE 上進行評估。相較於最新的人臉轉正和識別工作，該方法在所有基準上取得了當前最優或者頗具競爭力的結果。本文貢獻總結如下：

1.通過減少帶有局部單應變換的人臉幾何變形，本文提出一種提升人臉識別性能的全新方法。

2.本文引入一個人臉標準先驗和一個基於近似方法的降噪自編碼器以正則化人臉校正，完善校正質量。

3.在受限和不受限環境中開展的擴展實驗證明了該方法的優越性。

方法

另 I^X，I^Y 表示原始圖像和校正圖像。把原始圖像 I^X 的座標系作為原始座標系，校正圖像 I^Y 中的座標系作為校正座標系。另 p= ECCV 2018｜曠視科技提出GridFace：通過學習局部單應變換實現人臉校正和 q=

表示原始座標系和校正座標系中的點。通過 p̂ 和 q̂ 分別把單應座標系表示為 p̂= ECCV 2018｜曠視科技提出GridFace：通過學習局部單應變換實現人臉校正

和 q̂=

。在不損失通用性的前提下，研究者假設像素的座標系被歸一化為 [0, 1) × [0, 1)。

概述

如上所述，GridFace 包含兩個部分，校正模塊和識別模塊。在校正過程中，帶有參數 θ 的校正網絡 f_θ 通過非剛性圖像扭曲把原始的人臉圖像 I^X 映射到校正圖像 I^Y。接著，識別網絡 g_φ 由基於校正圖像 I^Y 的度量學習訓練。標準視角下的自然人臉分佈被作為正則化引入訓練，用以鼓勵標準視角的人臉校正。

人臉校正網絡

不同於最近的人臉轉正技術從抽象特徵中生成人臉，本文把校正過程定義為從原始圖像到校準後的標準圖像的像素扭曲，如圖 3 所示。

圖 3：局部單應變換。

研究者通過把校正圖像分割成 n^2 個非重疊單元以定義模版 Q：

對於每個單元，研究者通過評估局部單應矩陣 ECCV 2018｜曠視科技提出GridFace：通過學習局部單應變換實現人臉校正計算原始圖像中相應的可變形單元。具體而言，單應矩陣可寫為：

校正網絡把原始圖像 I^X 作為輸入，並預測 n^2 個殘差矩陣 ECCV 2018｜曠視科技提出GridFace：通過學習局部單應變換實現人臉校正。接著，獲得單元的校正圖像 I^Y，同時單應矩陣

可寫為：

其中 p̂ 和 q̂ 是 p 和 q 的單應座標系。

把每一單元的角點集合用 C 表示為 ECCV 2018｜曠視科技提出GridFace：通過學習局部單應變換實現人臉校正。由於分別評估所有的局部單應矩陣，校正圖像中的一個單元角點被映射到原始圖像中的多個點（見圖 3）。為避免 I^X 中相鄰單元的邊界之間出現較大的不一致性，研究者進一步引入一個軟約束，稱之為可變形約束 L_de。具體而言，另 M_i 表示原始圖像中 c_i 座標系的集合；接著添加一個軟約束 ECCV 2018｜曠視科技提出GridFace：通過學習局部單應變換實現人臉校正，從而把 M_i 中每一對點之間的一致性強化為

。研究者把這一軟約束併入學習目標，並作為校正網絡的可變形損失函數：

降噪自編碼器正則化

正則化鼓勵校正過程生成標準視角的人臉。研究者將其定義為一個圖像先驗，它直接基於自然圖像的標準視角人臉分佈 P_Y：

一般來講，這一優化至關重要。研究者沒有明確地建模這一分佈，而是考慮的梯度，並通過隨機梯度下降最大化它：

藉助於用於圖像生成和復原的先前結果，研究者把先驗梯度近似為

這裡，

是在真實數據分佈 P_Y（本文的標準視角人臉）上訓練的最優降噪自編碼器。藉助這些結果，研究者通過在標準視角人臉數據集上訓練一個降噪自編碼器 h_ω 來優化公式 5，接著通過公式 7 評估反向傳播中已近似的梯度。

人臉識別網絡

給定校正人臉 ECCV 2018｜曠視科技提出GridFace：通過學習局部單應變換實現人臉校正，研究者利用深度卷積識別網絡 g_φ 提取人臉表徵。按照先前工作，研究者使用三元組損失函數（triplet loss）訓練識別網絡。另

表示 3 張圖像，形成一個人臉三元組，其中 ECCV 2018｜曠視科技提出GridFace：通過學習局部單應變換實現人臉校正

和

來自同一個人，

來自另外一個人。識別損失函數如下：

其中 ECCV 2018｜曠視科技提出GridFace：通過學習局部單應變換實現人臉校正是特徵表徵 x 和 y 之間的歐幾里得距離。超參數 α 控制三元組損失函數之內人內距離和人間距離之間的餘量（margin）。

總結一下，研究者通過最小化一個目標聯合優化校正網絡和識別網路，包括一個可變形項，一個識別項和一個正則化項：

實驗

GridFace 所使用的數據集是社交網絡人臉數據集（Social Network Face Dataset/SNFace），它包含大約 10M 張圖像和 200K 張人臉。在本文的所有實驗中，研究者使用 GoogLeNet 作為識別網絡，校正網絡基於一個修改的 Inception 模塊。降噪自編碼器基於一個卷積自編碼器架構而設計。網絡細節請見表 1：

表 1：網絡細節。

人臉校正

本文所有方法的評估均在 SNFace 測試集上，研究者對比了若干個同類方法：baseline 模型沒有人臉校正；全局模型 Grid-1 通過全局單應變換實現人臉校正；沒有人臉先驗正則化的模型 Grid-8\reg 在訓練期間沒有正則化。

進而，為了對比在人臉識別技術中使用的 3D 人臉轉正技術，研究者藉助一項近期的人臉轉正技術（Hassner et al.）處理整個 SNFace 數據集以合成正面視角，並與這一在合成數據上（稱之為 baseline-3D）訓練的模型對比，以驗證本文方法人臉校正和聯合優化的有效性。

圖 4：SNFace 測試集的定量分析。

表 2：SNFace 測試集的定量結果。

圖 5：合成 2D 變換。

表 3：合成 2D 變換之下的定量結果。

評估結果

為驗證已學習模型的跨數據泛化能力，研究者在 4 個挑戰賽公開基準上做了實驗，即 LFW，YTF，Multi-PIE 和 IJB-A，它們涵蓋大角度、表情以及光照變化情況下的人臉校正。

圖 8：GridFace 在公開基準上的定性結果。左上：LFW；左下：YTF，右上：IJB-A，右下：Multi-PIE。

表 4：LFW 和 YTF 評估結果。

表 5：Multi-PIE 評估結果。

表 6：IJB-A 評估結果。

結論

本文開發出一種稱之為 GridFace 的方法，以減少人臉幾何變形。藉助局部單應變換，研究者提出一種全新的非剛性人臉校正方法，並通過把降噪自編碼器應用於自然的正面人臉分佈來正則化它。實驗結果表明該方法可大幅降低人臉變形，提升識別性能。

參考文獻

Alain, G., Bengio, Y.: What regularized auto-encoders learn from the data- generating distribution. The Journal of Machine Learning Research 15(1), 3563– 3593 (2014)

Jaderberg, M., Simonyan, K., Zisserman, A., et al.: Spatial transformer networks. In: Advances in Neural Information Processing Systems 28. pp. 2017–2025 (2015)

S ̈arela ̈, J., Valpola, H.: Denoising source separation. Journal of machine learning research 6(Mar), 233–272 (2005)

Chen, D., Hua, G., Wen, F., Sun, J.: Supervised transformer network for effi- cient face detection. In: European Conference on Computer Vision. pp. 122–138. Springer (2016)

Zhong, Y., Chen, J., Huang, B.: Toward end-to-end face recognition through align- ment learning. IEEE Signal Processing Letters 24(8), 1213–1217 (Aug 2017). https://doi.org/10.1109/LSP.2017.2715076

✄------------------------------------------------

加入機器之心（全職記者 / 實習生）：[email protected]

投稿或尋求報道：content@jiqizhixin.com

廣告 & 商務合作：[email protected]

分享到:

閱讀更多 坤艮機器之心 的文章

關鍵字: 社交網絡科技校正