論文:High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs
會議:CVPR2018
任務:利用條件 GAN 進行 2048 x 1024 分辨率的圖像合成和處理
pix2pix:
Image-to-Image Translation, 使用Domain A的圖片作為pix2pix 的輸入,生成domain B的圖片,利用判別器對圖片對進行判別,如下圖
D(real edge, fake image) --> fake
D(real edge, real image) --> real
限制: 生成256*256的圖片,難以生成高分辨率圖像;
pix2pixHD:
任務: 進行2048 x 1024 分辨率的圖像合成和處理
方法:針對高分辨率的圖片,利用GAN綜合local和global的信息構建一個Coarse-to-fine 的架構完成從label生成高分辨率圖片的任務,並且允許生成多風格(外觀紋理不同)的圖片以及允許實例操縱。
網絡:Coarse-to-fine 生成器
生成器拆分成兩個子網絡 G={G1,G2}:全局生成器網絡 G1利用全局信息 和局部增強網絡 G2利用局部信息,前者輸入和輸出的分辨率保持一致(如 1024 x 512),後者輸出尺寸(2048 x 1024)是輸入尺寸(1024 x 512)的 4 倍(長寬各兩倍)。
以此類推,如果想要得到更高分辨率的圖像,只需要增加更多的局部增強網絡即可(如 G={G1,G2,G3})。
多尺度判別器:相同的架構,使用不同尺度的圖片作為輸入進行判別器訓練
視覺交互操作(interative visual manipulation):
先看一下結果:
從作者發佈的視頻中,可以看到,可以選擇更換街景中車輛的顏色和型號,給街景圖增加一些樹木,或者改變街道類型(例如將水泥路變成十字路)。類似地,利用語義標註圖合成人臉時,給定語義標註的人臉圖像,你可以選擇組合人的五官,調整大小膚色,添加鬍子等。
這是這篇文章最有趣的一個部分,這是怎麼做的呢?
通過使用Instance map,進行視覺交互式操作,對圖片進行交互操作,網絡如下:
將圖片輸入到Feature encoder network E得到圖片的分割圖,使用Instance-wise average pooling對feature maps進行pooling操作,從而得到圖片的Features ,將圖片的Labels和Featuresconcat到一起,輸入Image generation network G生成目標圖片。
閱讀更多 AI深度學習求索 的文章