人臉合成效果媲美StyleGAN，而它是個自編碼器頭條網

2020-12-21 12:42:54 佚名

機器之心報道

參與：魔王

自編碼器（AE）與生成對抗網絡（GAN）是複雜分佈上無監督學習最具前景的兩類方法，它們也經常被拿來比較。人們通常認為自編碼器在圖像生成上的應用範圍比 GAN 窄，那麼自編碼器到底能不能具備與 GAN 同等的生成能力呢？這篇研究提出的新型自編碼器 ALAE 可以給你答案。目前，該論文已被 CVPR 2020 會議接收。

論文地址：https://arxiv.org/pdf/2004.04467.pdf

GitHub 地址：https://github.com/podgorskiy/ALAE

自編碼器是一種無監督方法，它通過同時學習編碼器-生成器圖將「生成性」和「表徵性」結合起來。關於自編碼器有兩個疑問尚未得到解決：

自編碼器是否具備和 GAN 同等的生成能力？

自編碼器能否學習解耦表徵（disentangled representation）？

最近，來自美國西弗吉尼亞大學的研究者提出一種新型自編碼器 Adversarial Latent Autoencoder (ALAE)，試圖解決以上問題。ALAE 是一個通用架構，它能夠利用近期 GAN 在訓練方面的改進。研究者表示 ALAE 具備與 GAN 相當的生成能力，且能夠學習解耦表徵。

利用 ALAE 通用架構，該研究設計了兩個自編碼器：一種基於 MLP 編碼器，另一種基於 StyleGAN 生成器，即 StyleALAE。

研究者對這兩個架構的解耦能力進行了驗證，發現 StyleALAE 不僅能夠生成與 StyleGAN 生成質量相當的 1024x1024 人臉圖像，在同樣分辨率條件下，它還可以基於真實圖像生成人臉重建和操縱結果。

研究者認為，ALAE 是首個性能匹配甚至超過生成器架構的自編碼器。

ALAE 到底效果如何呢？我們來看展示圖：

StyleALAE 的風格混合效果。

感興趣的讀者可以自己運行 demo，不過你需要 CUDA capable GPU、v1.3.1 及以上版本的 PyTorch 和 cuda/cuDNN 驅動，詳情參見 GitHub 地址。

新型通用自編碼器 ALAE

研究者觀察到每個 AE 方法都使用同樣的假設：潛在空間的概率分佈應與先驗相關，自編碼器應該與之匹配。而 StyleGAN 相關論文證明，中間潛在空間應當具備更好的解耦能力。

於是研究者通過修改原始 GAN 範式設計了一種新型 AE 架構：

允許基於數據學得的潛在分佈解決耦合問題 (A)，並使用對抗策略學習輸出數據分佈 (B)，以保留 GAN 的生成能力；為了實現 (A) 和 (B)，該研究提出將 AE reciprocity 置於潛在空間中 (C)，以避免使用在數據空間中運行的基於簡單 l_2 範數的重建損失（對於圖像空間來說它們通常是次優選擇）。

如下圖 1 所示，研究者將生成器 G 和判別器 D 分別分解成兩個網絡：F、G 和 E、D。

圖 1：ALAE 架構。

此外，研究者還展示了 ALAE 與其他自編碼器的關聯，詳見下表：

StyleALAE

研究者使用 ALAE 構建了一個自編碼器，該自編碼器使用的是基於 StyleGAN 的生成器。具體架構如下圖 2 所示：

圖 2：StyleALAE 架構。StyleALAE 編碼器中的實例歸一化（IN）層用來提取多尺度風格信息，並通過可學習的多重線性映射（multilinear map）將它們組合成為一個潛在代碼 w。

實現

ALAE 的算法訓練過程參見下圖：

ALAE 效果如何？

該研究在多個數據集上評估了 ALAE 的性能，實驗代碼和數據參見 GitHub 地址。

在 MNIST 上的性能

研究者使用 MNIST 數據集訓練 ALAE，並使用特徵表示來執行分類、重建和分析解耦能力的任務。

表 2：不同方法在 MNIST 分類任務上的性能。

圖 3：MNIST 重建效果。

StyleALAE 學習風格表徵的能力

研究者在 FFHQ、LSUN 和 CelebA-HQ 數據集上評估 StyleALAE 的性能。

表 3：不同方法在 FFHQ 和 LSUN 數據集上的 FID 分數。

表 4：不同方法的感知路徑長度（PPL），表示表徵解耦程度。

圖 5：FFHQ 重建結果。StyleALAE 對未見過的圖像的 1024×1024 重建結果。

圖 6：StyleALAE 的 FFHQ 生成結果（1024 × 1024 分辨率）。

圖 9：StyleALAE 的風格混合效果。「coarse styles」從 Source 圖像中複製了高級特徵，如姿勢、大致髮型和臉型，從 Destination 圖像中複製了所有顏色（眸色、髮色和光照）；「middle styles」從 Source 圖像中複製了較小型的面部特徵例如髮式、眼睛睜/閉，從 Destination 圖像中複製了臉型；「fine styles」從 Source 圖像中複製了顏色和微結構。