必讀!2018最具突破性計算機視覺論文Top 10(下)


6、自注意力生成對抗網絡


標題:Self-Attention Generative Adversarial Networks

作者:Han Zhang, Ian Goodfellow, Dimitris Metaxas, Augustus Odena

https://arxiv.org/abs/1805.08318


論文摘要

在這篇論文中,我們提出了自注意力生成對抗網絡(SAGAN),它允許對圖像生成任務進行注意力驅動、長期依賴關係建模。

在低分辨率特徵圖中,傳統的卷積GAN只根據空間局部點生成高分辨率細節。在SAGAN中,可以使用來自所有特徵位置的線索生成細節。此外,該鑑別器還可以檢查圖像中較遠部分的細節特徵是否一致。

最近的研究表明,生成器的調節會影響GAN的性能。利用這一點,我們將頻譜歸一化應用於GAN發生器,並發現這改善了訓練的動態性。

在具有挑戰性的ImageNet數據集上,提出的SAGAN實現了最佳的結果,將最佳Inception分數從36.8提高到52.52,並將Frechet Inception距離從27.62降低到18.65。注意力層的可視化顯示,生成器利用的是與對象形狀對應的鄰域,而不是固定形狀的局部區域。

概要總結

傳統的卷積神經網絡在圖像合成方面顯示了較為優秀的結果。然而,它們至少有一個重要的弱點——單獨的卷積層無法捕捉圖像中的幾何和結構模式。由於卷積是一種局部操作,所以左上方的輸出幾乎不可能與右下方的輸出有任何關係。

本文介紹了一個簡單的解決方案 - 將自注意力機制納入GAN框架。 該解決方案與幾種穩定技術相結合,有助於自注意力生成對抗網絡(SAGAN)在圖像合成中實現最佳的結果。


必讀!2018最具突破性計算機視覺論文Top 10(下)


核心思想

  • 單獨的卷積層在計算圖像中的長程依賴關係計算時效率低。相反,將自注意機制融入到GAN框架中,將使生成器和鑑別器都能夠有效地建模廣泛分離的空間區域之間的關係。
  • 自注意力模塊將一個位置的響應計算為所有位置特徵的加權和。
  • 以下技術有助於在具有挑戰性的數據集上穩定GAN的訓練:


  • 對發生器和鑑別器應用光譜歸一化。研究人員認為,鑑別器和發生器都能從光譜歸一化中受益,因為它可以防止參數幅度的增大,避免異常梯度。
  • 對發生器和鑑別器使用單獨的學習速率來補償正則化鑑別器中慢學習的問題,並使每個鑑別器步驟使用更少的發生器步驟成為可能。


最重要的成果

  • 事實上,將自注意力模塊合併到GAN框架中可以有效地建模長期依賴關係。
  • 驗證了所提出的穩定化技術在GAN訓練中的有效性。特別是表明:


  • 應用於生成器的頻譜歸一化穩定了GAN訓練;
  • 利用不均衡的學習速率可以加快正規化鑑別器的訓練。


  • 通過將Inception的分數從36.8提高到52.52,並將Frechet Inception的距離從27.62降低到18.65,從而在圖像合成方面獲得最先進的結果。


AI社區的評價

威斯康星大學麥迪遜分校統計學助理Sebastian Raschka教授表示:“這個想法簡單直觀,卻非常有效,而且易於實施。”

未來研究方向

探索減少GAN產生的奇怪樣本數量的可能性

可能的應用

使用GAN進行圖像合成可以替代用於廣告和電子商務目的的昂貴手工媒體創建。

代碼

GitHub上提供了自注意力GAN的PyTorch和TensorFlow實現。

PyTorch:

https://github.com/heykeetae/Self-Attention-GAN

TensorFlow:

https://github.com/brain-research/self-attention-gan




7、GANimation


標題:從單個圖像中獲取具有人臉解剖結構的面部動畫

作者:Albert Pumarola, Antonio Agudo, Aleix M. Martinez, Alberto Sanfeliu, Francesc Moreno-Noguer

https://arxiv.org/abs/1807.09251


論文摘要

若是能單憑一張圖像就能自動地將面部表情生成動畫,那麼將會為其它領域中的新應用打開大門,包括電影行業、攝影技術、時尚和電子商務等等。隨著生成網絡和對抗網絡的流行,這項任務取得了重大進展。像StarGAN這樣的結構不僅能夠合成新表情,還能改變面部的其他屬性,如年齡、髮色或性別。雖然StarGAN具有通用性,但它只能在離散的屬性中改變面部的一個特定方面,例如在面部表情合成任務中,對RaFD數據集進行訓練,該數據集只有8個面部表情的二元標籤(binary label),分別是悲傷、中立、憤怒、輕蔑、厭惡、驚訝、恐懼和快樂。

為達到這個目的,我們使用EmotioNet數據集,它包含100萬張面部表情(使用其中的20萬張)圖像。並且構建了一個GAN體系結構,其條件是一個一維向量:表示存在/缺失以及每個動作單元的大小。我們以一種無監督的方式訓練這個結構,僅需使用激活的AUs圖像。為了避免在不同表情下,對同一個人的圖像進行訓練時出現冗餘現象,將該任務分為兩個階段。首先,給定一張訓練照片,考慮一個基於AU條件的雙向對抗結構,並在期望的表情下呈現一張新圖像。然後將合成的圖像還原到原始的樣子,這樣可以直接與輸入圖像進行比較,並結合損失來評估生成圖像的照片級真實感。此外,該系統還超越了最先進的技術,因為它可以在不斷變化的背景和照明條件下處理圖像。

概要總結

本文介紹了一種新的GAN模型,該模型能夠在不斷變化的背景和光照條件下,從單個圖像生成具有解剖學感知的面部動畫。而在此之前,只能解決離散情感類編輯和人像圖像的問題。該方法通過將面部變形編碼為動作單元來呈現多種情緒。即使在具有挑戰性的光照條件和背景,得到的動畫演示了一個非常平滑和一致的轉換幀。


必讀!2018最具突破性計算機視覺論文Top 10(下)


核心思想

  • 面部表情可以用動作單元(AU)來描述,其在解剖學上描述特定面部肌肉的收縮。 例如,“恐懼”的面部表情通常通過以下激活產生:Inner Brow Raiser(AU1),Outer Brow Raiser(AU2),Brow Lowerer(AU4),Upper Lid Raiser(AU5),Lid Tightener(AU7) ,Lip Stretcher(AU20)和Jaw Drop(AU26)。 每個AU的大小定義了情緒的程度。
  • 合成人臉動畫的模型是基於GAN架構的,它以一維向量為條件,表示每個動作單元的存在/不存在和大小。
  • 為了避免同一人在不同表情下的訓練圖像對的需要,使用雙向發生器將圖像轉換成所需的表情,並將合成的圖像轉換回原始姿態。
  • 為了在不斷變化的背景和光照條件下處理圖像,該模型包括一個注意力層,該注意力層只將網絡的動作集中在圖像中與表達新表情相關的區域。


最重要的成果

  • 引入一種全新的GAN模型用於野外人臉動畫,該模型可以在完全無監督的情況下進行訓練,並在具有挑戰性的光照條件和非真實世界數據的情況下,通過幀間非常平滑和一致的轉換生成具有視覺吸引力的圖像。
  • 演示如何通過在GAN已經看到的情緒之間進行插值來生成更豐富的情緒。


AI社區的評價

  • 該論文在歐洲計算機視覺會議(ECCV 2018)上獲得了榮譽獎。


未來研究方向

  • 將該方法應用於視頻序列。


可能的應用

  • 這項技術可以從一張圖片中自動生成面部表情動畫,可以應用於時尚界和電子商務、電影行業、攝影技術等多個領域。


代碼

作者提供了本研究論文在GitHub上的原始實現地址:

https://github.com/albertpumarola/GANimation




8、視頻到視頻的合成


標題:視頻到視頻的合成Video-to-Video Synthesis

作者:Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Guilin Liu, Andrew Tao, Jan Kautz, Bryan Catanzaro

https://arxiv.org/abs/1808.06601


論文摘要

本文研究的問題是視頻到視頻(Video-to-Video)的合成,其目標是學習一個映射函數從一個輸入源視頻(例如,語義分割掩碼序列)到一個輸出逼真的視頻,準確地描述了源視頻的內容。

與之對應的圖像到圖像的合成問題是一個熱門話題,而視頻到視頻的合成問題在文獻中研究較少。在不瞭解時間動態的情況下,直接將現有的圖像合成方法應用於輸入視頻往往會導致視頻在時間上不連貫,視覺質量低下。

本文提出了一種在生成對抗學習框架下的視頻合成方法。通過精心設計的生成器和鑑別器架構,再加上時空對抗目標,可以在一組不同的輸入格式(包括分割掩碼、草圖和姿勢)上獲得高分辨率、逼真的、時間相干的視頻結果。

在多個基準上的實驗表明,與強基線相比,本文的方法具有優勢。特別是該模型能夠合成長達30秒的街道場景的2K分辨率視頻,大大提高了視頻合成的技術水平。最後,將該方法應用於未來的視頻預測,表現優於幾個最先進的系統。

概要總結

英偉達的研究人員引入了一種新的視頻合成方法。該框架基於條件甘斯。具體地說,該方法將精心設計的發生器和鑑別器與時空對抗性目標相結合。實驗表明,所提出的vid2vid方法可以在不同的輸入格式(包括分割掩碼、草圖和姿勢)上合成高分辨率、逼真、時間相干的視頻。它還可以預測下一幀,其結果遠遠優於基線模型。


必讀!2018最具突破性計算機視覺論文Top 10(下)


核心思想

  • 視頻幀可以按順序生成,每個幀的生成只取決於三個因素:
  • 電流源幀;
  • 之前的兩個源幀;
  • 之前兩個生成的幀。
  • 使用多個鑑別器可以緩解GAN訓練過程中的模式崩潰問題:
  • 條件圖像鑑別器確保每個輸出幀類似於給定相同源圖像的真實圖像;
  • 條件視頻鑑別器確保連續輸出幀類似於給定相同光流的真實視頻的時間動態。
  • 在生成器設計中,前背景先驗進一步提高了模型的綜合性能。
  • 使用軟遮擋掩碼代替二進制可以更好地處理“放大”場景:我們可以通過逐漸混合扭曲像素和新合成像素來添加細節。


最重要的成果

  • 在視頻合成方面優於強基線:
  • 生成高分辨率(2048х2048)、逼真、時間相干視頻30秒;
  • 根據採樣不同的特徵向量,輸出多個具有不同視覺外觀的視頻。
  • 在未來的視頻預測中優於基線模型:
  • 開源了一個PyTorch技術的實現。此代碼可用於:
  • 將語義標籤轉換為現實世界的視頻;
  • 從邊緣映射生成正在說話的人的多個輸出;
  • 在給定的姿勢下生成整個人體。


AI社區的評價

  • 藝術家兼程序員吉恩·科根(Gene Kogan)說:“英偉達的新vid2vid是第一個開源代碼,它可以讓你從一個源視頻中令人信服地偽造任何人的臉。”
  • 這篇論文也受到了一些批評,因為有人擔心它可能被用來製作深度偽造或篡改的視頻,從而欺騙人們。


未來研究方向

  • 使用對象跟蹤信息,確保每個對象在整個視頻中具有一致的外觀。
  • 研究是否使用較粗糙的語義標籤訓練模型將有助於減少在語義操縱之後出現的可見偽像(例如,將樹木變成建築物)。
  • 添加額外的3D線索,如深度地圖,以支持汽車轉彎的合成。


可能的應用

  • 市場營銷和廣告可以從vid2vid方法創造的機會中獲益(例如,在視頻中替換面部甚至整個身體)。然而,這應該謹慎使用,需要想到道德倫理方面的一些顧慮。


代碼

英偉達團隊提供了本研究論文在GitHub上的原始實現的代碼:

https://github.com/NVIDIA/vid2vid




9、人人來跳舞


標題:人人都在跳舞

作者:Caroline Chan, Shiry Ginosar, Tinghui Zhou, Alexei A. Efros

https://arxiv.org/abs/1808.07371


論文摘要

本文提出了一種簡單的“按我做”的動作轉移方法:給定一個人跳舞的源視頻,我們可以在目標對象執行標準動作幾分鐘後將該表演轉換為一個新的(業餘)目標。

本文提出這個問題作為每幀圖像到圖像的轉換與時空平滑。利用位姿檢測作為源和目標之間的中間表示,我們調整這個設置為時間相干視頻生成,包括現實的人臉合成。學習了從位姿圖像到目標對象外觀的映射。視頻演示可以在https://youtu.be/PCBTZh41Ris找到。

概要總結

加州大學伯克利分校的研究人員提出了一種簡單的方法,可以讓業餘舞蹈演員像專業舞蹈演員一樣表演,從而生成視頻。如果你想參加這個實驗,你所需要做的就是錄下你自己表演一些標準動作的幾分鐘的視頻,然後拿起你想要重複的舞蹈的視頻。

神經網絡將完成主要工作:它將問題解決為具有時空平滑的每幀圖像到圖像的轉換。通過將每幀上的預測調整為前一時間步長的預測以獲得時間平滑度並應用專門的GAN進行逼真的面部合成,該方法實現了非常驚人的結果。

必讀!2018最具突破性計算機視覺論文Top 10(下)



核心思想

  • “跟我做”動傳遞被視為每幀圖像到圖像的平移,姿勢棒圖作為源和目標之間的中間表示:


  • 預先訓練的最先進的姿勢檢測器根據源視頻創建姿勢棒圖;
  • 應用全局姿勢標準化來解釋框架內的體形和位置中的源和目標主體之間的差異;
  • 標準化的姿勢棒圖被映射到目標對象。


  • 為了使視頻流暢,研究人員建議在先前生成的幀上調節發生器,然後將兩個圖像提供給鑑別器。 姿勢關鍵點上的高斯平滑允許進一步減少抖動。
  • 為了生成更逼真的面部,該方法包括額外的面部特定GAN,其在主生成完成之後刷新面部。


最重要的成果

  • 根據定性和定量評估,提出了一種優於強基線(pix2pixHD)的運動傳輸新方法。
  • 演示特定於人臉的GAN為輸出視頻添加了相當多的細節。


AI社區的評價

  • 谷歌大腦的技術人員湯姆·布朗(Tom Brown)說:“總的來說,我覺得這真的很有趣,而且執行得很好。期待代碼的公佈,這樣我就可以開始訓練我的舞步了。”
  • Facebook人工智能研究工程師Soumith Chintala說:“卡洛琳·陳(Caroline Chan)、阿廖沙·埃夫羅斯(Alyosha Efros)和團隊將舞蹈動作從一個主題轉移到另一個主題。只有這樣我才能跳得好。了不起的工作! ! !”


未來研究方向

  • 用時間相干的輸入和專門為運動傳輸優化的表示來替換姿態棒圖。


可能的應用

  • “跟我做”在製作營銷和宣傳視頻時,可能會應用動作轉移來替換主題。


代碼

本研究論文的PyTorch實現可在GitHub上獲得:

https://github.com/nyoki-mtl/pytorch-EverybodyDanceNow




10、用於高保真自然圖像合成的大規模GAN訓練


標題:Large Scale GAN Training For High Fidelity Natural Image Synthesis

By Andrew Brock,Jeff Donahue,Karen Simonyan(2018)

https://arxiv.org/abs/1809.11096

論文摘要

儘管生成圖像建模最近取得了進展,但從ImageNet等複雜數據集成功生成高分辨率、多樣化的樣本仍然是一個難以實現的目標。為此,我們在最大的規模下進行了生成對抗網絡的訓練,並研究了這種規模下的不穩定性。我們發現,將正交正則化應用於發生器,使其服從於一個簡單的“截斷技巧”,可以允許通過截斷潛在空間來精細控制樣本保真度和多樣性之間的權衡。 我們的修改使得模型在類條件圖像合成中達到了新的技術水平。 當我們在ImageNet上以128×128分辨率進行訓練時,我們的模型(BigGAN)的初始得分(IS)為166.3,Frechet初始距離(FID)為9.6。

概覽

DeepMind團隊發現,當前的技術足以從現有數據集(如ImageNet和JFT-300M)合成高分辨率、多樣化的圖像。他們特別指出,生成對抗網絡(GANs)可以生成看起來非常逼真的圖像,如果它們在非常大的範圍內進行訓練,即使用比以前實驗多2到4倍的參數和8倍的批處理大小。這些大規模的GAN,或BigGAN,是類條件圖像合成的最新技術。

必讀!2018最具突破性計算機視覺論文Top 10(下)



核心思想

  • 隨著批(batch)大小和參數數量的增加,GAN的性能更好。
  • 將正交正則化應用到生成器中,使模型響應特定的技術(“截斷技巧”),該技術提供了對樣本保真度和多樣性之間的權衡的控制。

最重要的成果

  • 證明GAN可以從scaling中獲益;
  • 構建允許顯式、細粒度地控制樣本多樣性和保真度之間權衡的模型;
  • 發現大規模GAN的不穩定性;
  • BigGAN在ImageNet上以128×128分辨率進行訓練:初始得分(IS)為166.3,之前的最佳IS為52.52;Frechet Inception Distance (FID)為9.6,之前最好的FID為18.65。

AI社區的評價

  • 該論文正在為ICLR 2019做準備;
  • 自從Big Hub上線BigGAN發生器之後,來自世界各地的AI研究人員正在玩BigGAN,來生成狗,手錶,比基尼圖像,蒙娜麗莎,海濱以及更多主題。

未來研究方向

  • 遷移到更大的數據集以減少GAN穩定性問題;
  • 探索減少GAN產生的奇怪樣本數量的可能性。

可能的應用

  • 取代昂貴的手工媒體創作,用於廣告和電子商務的目的。
新智元報道來源: topbots.com

關注V信公眾號:七月在線實驗室,查看更多幹貨資料,BAT面試題等


分享到:


相關文章: