照片閉眼也無妨,Facebook黑科技完美補全大眼睛

現在有很多方法可以美化照片,讓你看起來更好看,簡單的,比如消除紅眼或者鏡頭眩光,複雜的,甚至可能讓你看起來變了一個人。

照片閉眼也無妨,Facebook黑科技完美補全大眼睛

但是,到目前為止,還沒有一個很好的辦法處理照相時眨眼的問題:當拍照的那一瞬間眼睛正好閉上了,那麼……就只能重新拍一張。

不過,現在好了,Facebook的一項最新研究可以很好地解決這個問題,而且效果驚豔。

照片閉眼也無妨,Facebook黑科技完美補全大眼睛

深度學習讓計算機“腦補”,風格轉移合成逼真細節

Facebook在他們發表於CVPR 2018的論文“Eye In-Painting with Exemplar Generative Adversarial Networks”中描述了這項工作。

這裡提到的“In-Painting”,也即圖像補全,最初是一個傳統圖形學的問題,在一幅圖像上挖一個洞,看如何利用其他的信息將這個洞補全,並且讓人眼無法辨別。

這個問題對人類來說似乎很容易,只要稍微想象一下,大家很容易就能腦補出洞裡應該有什麼。但是,這個任務對於計算機而言卻十分困難,因為這個問題沒有唯一確定的解,如何利用其他的信息,如何判斷補全的結果是否足夠逼真,都是要考慮的問題。

近來,深度學習的發展,得益於神經網絡對圖像中高層特徵(high-level feature)的提取能力,研究人員可以將大數據和high-level feature組合起來,使這個十分困難的問題得到了比較好的解決。

例如,2017年,來自伯克利和Adobe等機構的研究人員提出了一種混合優化方法(joint optimization),利用編碼器 - 解碼器CNN的結構化預測和神經補丁的力量,成功合成了實際的高頻細節。

照片閉眼也無妨,Facebook黑科技完美補全大眼睛

對於給定的一張帶有孔洞(256×256)的圖像(512×512),算法可以合成出更清晰連貫的孔洞內容(d)。上圖展示了混合優化方法與用Context Encoders(b)、PatchMatch(c)這兩種方法產生的結果的比較。

類似於風格轉移(style transfer),他們的方法將編碼器-解碼器預測作為全局內容約束,並且將孔洞和已知區域之間的局部神經補丁相似性作為風格(style)約束。

補全眼睛,還是個大問題

但是,上述方法還是存在種種侷限,其中之一就是對眼睛的補完。

這並不是說眼睛——“人類心靈的窗口”很難模擬。實際上,目前的深度網絡已經能在語義上產生逼真的、令人信服的結果。

但是,大多數方法並不能保留照片中人物的“身份”(identity)。DNN可以學習“打開”一雙閉合的眼睛,但是模型本身並不能保證新的眼睛對應於這個人的特定眼睛結構。

DNN只會插入一雙與訓練集中相似的臉相對應的眼睛。這時候,如果一個人有一些明顯的特徵,比如眼睛的形狀比較特別,就不會在生成的部分中得到體現。

Facebook提出ExGAN,比cGAN更具表現力

Facebook作為全球最大的社交網絡,每天乃至每一分鐘都有大量用戶將自己的照片上傳,而其中就有很多是閉眼的照片。

坐擁可能是全球最大的閉眼照片數據集,Facebook的研究人員自然會想,能不能在這個基礎上做些什麼。

於是,有鑑於生成對抗網絡(GAN)在生成逼真圖像中的應用,Facebook的Brian Dolhansky和Cristian Canton Ferrer提出了一個Exemplar GANs (ExGANs)。

照片閉眼也無妨,Facebook黑科技完美補全大眼睛

ExGAN是條件GAN(cGAN)的擴展,利用示例信息,生成高質量、個性化的圖像補全。

與以前的條件GAN不同,在判別器網絡裡插入了額外的參考信息(參考圖片或者感知代碼),因此ExGAN有更強的表現力。

照片閉眼也無妨,Facebook黑科技完美補全大眼睛

ExGANs的總體訓練流程可以概括為:

  1. 從輸入圖像中標出眼睛;
  2. 以參考圖像(reference image)或感知代碼(perceptual code)為指導,對圖像進行補全;
  3. 通過輸入圖像和補全圖像之間的內容/重構損失,計算生成器參數的梯度;
  4. 用補全圖像、另一個ground truth圖像和參考圖像或感知代碼,計算鑑別器參數的梯度;
  5. 通過生成器反向傳播鑑別器的誤差。還有可選的一步,用感知損失對生成器的參數進行更新。其中,函數C(I)是身份函數。

ExGAN,讓閉眼照片完美“開眼”

ExGAN從樣例中,不僅瞭解了這個人的眼睛看的是什麼,還了解了這個人的眼睛的結構、瞳孔的顏色,等等。最終補全的結果非常逼真而且自然。

在測試中,人們誤把假眼睛睜開的照片當成真實的,或者有超過一半的時間他們不能確定哪個是哪個。看了上面的實例,除非我知道照片肯定是被篡改過的,不然我在信息流中滾動瀏覽時我可能根本就不會注意到。

在下圖中,左邊第一列是ground truth,第二列是其他方法,第三列和第四列都是ExGANs的結果。其中,第三列是使用了參考圖像的結果,第四列是使用了感知代碼的結果。(圖片可以點擊放大查看。)

照片閉眼也無妨,Facebook黑科技完美補全大眼睛

照片閉眼也無妨,Facebook黑科技完美補全大眼睛

照片閉眼也無妨,Facebook黑科技完美補全大眼睛

照片閉眼也無妨,Facebook黑科技完美補全大眼睛

在某些情況下,ExGANs仍然會失敗,比如當一個人的眼睛被一縷頭髮遮住了一部分,或者有時不能正確地著色,就會產生一些奇怪的人工痕跡。但這些都是可以解決的問題。

研究者表示,Exemplar GANs是一個通用的框架,因此可以拓展到其他計算機視覺任務乃至其他領域的問題上。

在這次的研究中,基於參考圖片和基於感知代碼的兩種方法是分開的,因為他們想展示這兩種方法都是可行的。未來,他們會研究將這兩種方法結合在一起,比如在生成器裡使用參考圖片,在判別器裡使用感知代碼,從而生成更加逼真可信的眼睛補全。

不論如何,我們的照片將變得更加自然和漂亮,而鑑別“換臉”或者假視頻的任務,也將更具挑戰。


分享到:


相關文章: