基於人臉關鍵點修復人臉,騰訊等提出優於SOTA的LaFIn生成網絡

基於人臉關鍵點修復人臉,騰訊等提出優於SOTA的LaFIn生成網絡

作者 | Yang Yang、Xiaojie Guo、Jiayi Ma、Lin Ma、Haibin Ling

譯者 | 劉暢

出品 | AI科技大本營(ID:rgznai100)

【導語】現實場景中,人臉的變化是很大的,例如不同的姿勢、表情和遮擋等,因此在現實場景中修復人臉圖像是一件非常具有挑戰性的任務。一種好的修復算法應該保證輸出沒有違和感,包括眼睛,鼻子和嘴巴之間的拓撲結構,以及姿勢,性別,種族,表情等屬性是一致的。

在今天的這篇論文中,騰訊聯合天津大學、武漢大學等高校研究了一種有效的基於深度學習的方法來解決這些問題。該方法涉及人臉關鍵點預測子網和圖像修復子網。具體而言,關鍵點預測器可以提供不完整面孔的結構信息(例如,拓撲關係和表情),而圖像修復器則根據預測的關鍵點生成合理的外觀(例如,性別和種族)。

在 CelebA-HQ 和 CelebA 兩個數據集上的實驗結果現實了本文方法的有效性,並定性定量的證明了其優於 SOTA 的方法。此外,本文假設高質量的完整面孔及其關鍵點可以用作增強數據,以進一步提高(任何)關鍵點檢查的性能,在

300W 和 WFLW 兩個數據集上的實驗結果證實了這一想法。

基于人脸关键点修复人脸,腾讯等提出优于SOTA的LaFIn生成网络

論文與代碼地址

https://github.com/YaN9-Y/lafin

https://arxiv.org/abs/1911.11394

引言

圖像修補(Image Inpainting)指的是重建圖像丟失或損壞的過程,該過程可以作為各種其他任務的預處理,如圖像恢復或圖像編輯。毫無疑問,研究者們期望完成的結果是無違和感的。相較於海洋、草坪等自然場景,人臉會更有挑戰性。因為人臉會有更強的拓撲結構,而且需要保留一致性的人臉屬性。

如圖1 所示。,根據觀察,研究者們會很容易的感知到重構的人臉中存在的明顯缺陷。下面給出這個問題的定義:

定義:人臉修補。給定一個帶有損壞區域M的人臉圖像I。然後指定M’ 為M的補碼。o為哈達瑪積。目標是對遮擋區域填充語義上的連續且有意義的信息,換句話說,最終的結果I’ = MoI' + M'oI應當保持眼睛、鼻子、嘴巴間的拓撲結果,以及姿態、性別、種族和表情等屬性的一致性。

基于人脸关键点修复人脸,腾讯等提出优于SOTA的LaFIn生成网络

在現實場景中完成人臉修補是一項非常具有挑戰性的任務。一個合格的人臉修補算法應當仔細考慮下面兩個方面,以確保輸出的真實感

(1)人臉的結構非常穩固。眉毛、眼睛、鼻子和嘴巴等面部特徵之間的拓撲關係始終有條有序。最終生成的臉必須首先滿足此拓撲結構。

(2)人臉的屬性,如姿態、性別、種族和表情在整個修補區域和可見區域應該保持一致。

有稍微不滿足上述的兩個條件,則會存在重大的感知缺陷。

為什麼要採用人臉關鍵點?這項工作採用人臉關鍵點作為結構監督信息,是由於其緊湊性、充分性和魯棒性。有人可能會問,邊緣信息或解析信息是否比關鍵點指導性更強?如果得到的信息是非常準確的,那當然。但是在非常具有挑戰性的環境下(如大面積損壞的大姿態人臉),要生成合理的邊緣並不容易。在這種情況下,冗餘和不準確的信息會損害性能。關鍵點相較於這些信息,更整潔健壯。從編輯操作角度看,關鍵點更易於控制。這些特點對於人臉修補來說,使用關鍵點是更好的選擇。

如何保持屬性的一致性?除了由關鍵點確定的人臉姿態和表情屬性外,還需要考慮其他幾個屬性,例如性別、種族和容貌風格。一致性最重要一點是連接可見區域和修補區域,對於這些更細粒度的屬性,修補算法應將可見信息作為圖像重構的參考。

基于人脸关键点修复人脸,腾讯等提出优于SOTA的LaFIn生成网络

本文貢獻。本文提出了一個深度網絡,即“關鍵點指導的生產性圖像修補器”(Generative Landmark Guided Face Inpaintor,簡稱LaFIn),它由人臉關鍵點預測子網和圖像修補子網組成,用於解決人臉修復問題。

主要貢獻可以歸納為以下幾個方面:

1、正如分析那樣,人臉關鍵點整潔,充足且魯棒,可以用作人臉修復的監督。本文構建了一個用於預測不完整面孔上的關鍵點模塊,該模塊可以映射目標面孔的拓撲結構,姿勢和表情。

2、為了修復人臉,本文設計了一個以人臉關鍵點信息為指導的修復子網。為了實現屬性一致性,子網利用了上下文信息並連接了相關聯的特徵圖。

3、本文進行了大量的實驗以驗證算法的有效性,並定性定量的證明其優於目前SOTA的方法。

此外,我們可以進一步使用完成結果來提高關鍵點檢測器的性能。由於在實際情況中,訓練數據通常不足,並且手動標註關鍵點十分耗時,因此需要一種簡單而又可靠的數據擴充方式。這是本文的另一項貢獻。

4、修復後的圖可能生成基於關鍵點的各種新面孔。因此,可以將生成的面部和相應的(GroundTruth)關鍵點用作增強數據。在 WFLW和300W兩個數據集上的實驗結果證實了這種方式的有效性。

方法

整個模型由兩個子網絡構成,一個是預測關鍵點的網絡,一個是基於關鍵點生成新像素的圖像修補網絡。論文中的關鍵點預測子網絡可以使用任意已有的關鍵點檢測算法,但是作者的關注點有所不同,他們更希望得到一些基礎拓撲結構和某些屬性,而不是每個關鍵點的精確位置。因此作者連接融合了不同階段的特徵圖來實現最終的關鍵點預測。

圖像修補模型的輸入是損壞圖像和關鍵點(預測的結果或Ground Truth)。模型包含了生成器和判別器。其中生成器是基於U-net網絡結構,但略有不同,具體的網絡結構參數作者在論文附錄使用表格非常詳細的給出了。判別器是基於70*70的Patch-GAN網絡結構。引入了SN等一些常見的穩定模型訓練的結構。同樣在附錄裡面有非常詳細的結構參數。關於Loss函數,作者使用了多種Loss的

結合,包括per-pixel損失、感知損失、風格損失、TV損失和對抗損失。

基于人脸关键点修复人脸,腾讯等提出优于SOTA的LaFIn生成网络

實驗

首先實驗的數據集是CelebA-HQ,其中的損壞和遮擋等是隨機生成和添加。對比的方法包括CE、GFC、CA、GAFC、PIC、EC。客觀評價指標使用的是PSNR、SSIM和FID。

基于人脸关键点修复人脸,腾讯等提出优于SOTA的LaFIn生成网络
基于人脸关键点修复人脸,腾讯等提出优于SOTA的LaFIn生成网络基于人脸关键点修复人脸,腾讯等提出优于SOTA的LaFIn生成网络
基于人脸关键点修复人脸,腾讯等提出优于SOTA的LaFIn生成网络

作者還實驗了使用LaFIn方法來增加關鍵點檢測的訓練數據。並在WFLW和300W兩個數據集上實驗了效果。如下所示。

基于人脸关键点修复人脸,腾讯等提出优于SOTA的LaFIn生成网络

總結

在這些研究中,本文開發了一個生成網絡,稱為LaFIn,用於人臉修復。提出的LaFIn算法首先預測關鍵點,然後根據關鍵點進行圖像修復。本文依據的原則是,要有足夠且魯棒的關鍵點,才能為人臉修補器提供結構信息指導。為了確保屬性的一致性,本文利用了上下文信息。通過大量的實驗,驗證了本文方法的有效性,並定性定量的證明其優於SOTA的方法。此外,還可以使用LaFIn算法來增加人臉關鍵點數據,實驗證明了這種方法的有效性。

精彩公開課

基于人脸关键点修复人脸,腾讯等提出优于SOTA的LaFIn生成网络


分享到:


相關文章: