學界|把醬油瓶放進菜籃子:UC Berkeley提出高度逼真的物體組合網絡Compositional GAN

選自arXiv

機器之心編譯

作者:Samaneh Azadi 等

參與:李詩萌、張倩

生成對抗網絡(GAN)可以產生複雜且逼真到令人驚訝的圖像,但它會忽略可能存在於場景中的多個實體間的顯式空間交互。本文提出以 GAN 為框架、將目標組合建模為自洽的組合-分解網絡。該模型以其邊緣分佈的目標圖像為條件,通過明確學習可能的交互,在聯合分佈中產生逼真的圖像。實驗結果表明,訓練後的模型可以在作為輸入的兩個給定的目標域間捕獲潛在的交互關係,並以合理的方式在測試時輸出組合場景的新的實例。

1. 引言

生成對抗網絡(GAN)是在給定輸入的條件下生成圖像的一種強大方法。輸入的格式可以是圖像 [9,37,16,2,29,21]、文本短語 [33,24,23,11] 以及類標籤佈局 [19,20,1]。大多數 GAN 實例的目標是學習一種可以將源分佈中的給定樣例轉換為輸出分佈中生成的樣本的映射。這主要涉及到單個目標的轉換(從蘋果到橙子、從馬到斑馬或從標籤到圖像等),或改變輸入圖像的樣式和紋理(從白天到夜晚等)。但是,這些直接的以輸入為中心的轉換無法直觀體現這樣一個事實:自然圖像是 3D 視覺世界中交互的多個對象組成的 2D 投影。本文探索了組合在學習函數中所起到的作用,該函數將從邊緣分佈(如椅子和桌子)採集到的目標不同的圖像樣本映射到捕獲其聯合分佈的組合樣本(桌椅)中。

由於不同對象間在相對縮放、空間佈局、遮擋以及視角變換等方面可能存在複雜的交互關係,在自然圖像中對組合建模是一個極具挑戰的問題。近期的研究在 GAN 框架 [15] 中使用空間變換網絡 [10],通過在幾何扭曲參數空間中進行操作,找到前景對象的幾何糾正來分解該問題。但這種方法僅限於固定的背景,也並未考慮真實世界中更加複雜的交互關係。近期的另一項研究是以文本和場景圖為條件生成場景的,這項研究明確地對對象和其交互關係進行了推理。

我們開發的這種方法可以對圖像中的目標組合建模。我們將組合兩個輸入對象圖像的任務視為生成一個聯合圖像,該圖像可以捕獲這兩個對象在自然圖像中的聯合交互關係。例如,給定椅子和桌子的圖像,可以產生一張包含相同的成對桌椅的自然交互的圖像。一個可以正確捕捉組合特徵的模型需要對遮擋排序(如桌子在椅子前面)和空間佈局(如椅子在桌子內滑動)有所瞭解。據我們所知,我們是第一個在沒有任何清晰的關於目標佈局的先前顯式信息的情況下,在圖像條件空間中解決該問題的組。

我們的工作重點是將兩個目標組合的問題重構為先組合好給定的目標圖像以生成可以對目標交互關係建模的聯合圖像,再將聯合圖像分解,以獲得單個目標。這樣的重構可以通過組合-分解網絡加強自洽約束 [37]。但在一些場景中無法用組合合成圖像對相同的目標實例的成對樣例進行訪問,例如,要根據給定桌子和椅子的圖像生成聯合圖像,除了指定的桌子外我們可能沒有任何有關指定椅子的樣例,但我們可能有其他桌子和椅子的圖像。我們在組合分解層添加了修復網絡,以處理這樣的不配對情況。

通過定性和定量實驗,我們在兩個訓練場景中評估了我們提出的 Compositional-GAN 方法:(a)配對:當我們有權用相關組合圖像訪問單個對象圖像的成對樣例時;(b)未配對:當數據集源於聯合分佈且沒有與來自邊緣分佈的任何一張圖進行配對時。

聯合 GAN 代碼和數據集請參閱:https://github.com/azadis/ CompositionalGAN

論文:Compositional GAN: Learning Conditional Image Composition

学界|把酱油瓶放进菜篮子:UC Berkeley提出高度逼真的物体组合网络Compositional GAN

論文鏈接:https://arxiv.org/pdf/1807.07560v1.pdf

生成對抗網絡(GAN)可以產生複雜且逼真到令人驚訝的圖像,但它一般會從單個潛在源採樣建模,從而忽略可能存在於場景中的多個實體間的顯式空間交互。在相對縮放、空間佈局、遮擋或視角轉移等情況下在不同目標間捕獲複雜的交互關係是極具挑戰的問題。本文提出以 GAN 為框架、將目標組合建模為自洽的組合-分解網絡。該模型以其邊緣分佈的目標圖像為條件,通過明確學習可能的交互,在聯合分佈中產生逼真的圖像。我們在對單獨的目標進行配對和不配對的兩個場景中通過定性實驗和用戶評估對模型進行了評估,在訓練過程中也給出了聯合場景。結果表明,訓練後的模型可以在作為輸入的兩個給定的目標域間捕獲潛在的交互關係,並以合理的方式在測試時輸出組合場景的新的實例。

学界|把酱油瓶放进菜篮子:UC Berkeley提出高度逼真的物体组合网络Compositional GAN

圖 1:組合 GAN 對配對和未配對訓練數據訓練得到的模型。黃色框指的是用於在給定第二對象被遮擋的情況下合成第一對象的新視角的 RAFN 步驟,該過程僅用於成對數據的訓練過程。橙色框表示用未配對數據修復輸入分割的過程。對配對和未配對的情況而言模型的剩餘部分相似,都包括 STN,再之後是自洽組合-分解網絡。

学界|把酱油瓶放进菜篮子:UC Berkeley提出高度逼真的物体组合网络Compositional GAN

圖 2:使用配對或未配對數據訓練桌椅組合任務的測試結果。「NN」代表成對訓練集中最接近的圖像,「NoInpaint」表示在沒有修復網絡的情況下未配對模型的結果。在配對和未配對情況中,cˆ before 和 cˆ after 分別表示在推理細化網絡之前和之後的生成器的結果。cˆ after s 表示細化步驟後的有遮掩的轉置輸入的總和。

4 實驗

学界|把酱油瓶放进菜篮子:UC Berkeley提出高度逼真的物体组合网络Compositional GAN

圖 3:用配對或未配對數據對籃子-瓶子組合任務訓練後的測試結果。「NN」表示在配對的訓練集中最近的圖像,「NoInpaint」表示在沒有修復網絡的情況下用未配對數據訓練得到的模型。在配對和未配對情況中,cˆ before 和 cˆ after 分別表示在推理細化網絡之前和之後生成器的輸出結果。此外,cˆ after s 表示細化步驟之後遮掩情況下轉置輸入的總和。

学界|把酱油瓶放进菜篮子:UC Berkeley提出高度逼真的物体组合网络Compositional GAN

表 1:AMT 用戶評估比較我們提出的模型的不同組件。第一列表示在未配對場景中推理(未細化)期間要細化的圖像的偏好百分比。第二列表示與未配對情況相比,通過配對數據訓練策略生成的細化圖像的偏好百分比。

学界|把酱油瓶放进菜篮子:UC Berkeley提出高度逼真的物体组合网络Compositional GAN

圖 4:面部-太陽鏡組合任務的測試樣例。前兩行表示輸入的太陽鏡圖像和麵部圖像,第三行和第四行分別表示用配對和未配對數據訓練的組合 GAN 的輸出。最後一行表示 ST-GAN 模型生成的圖像。

學界|把醬油瓶放進菜籃子:UC Berkeley提出高度逼真的物體組合網絡Compositional GAN

✄------------------------------------------------

加入機器之心(全職記者 / 實習生):[email protected]

投稿或尋求報道:content@jiqizhixin.com

廣告 & 商務合作:[email protected]


分享到:


相關文章: