必读!2018最具突破性计算机视觉论文Top 10(下)


6、自注意力生成对抗网络


标题:Self-Attention Generative Adversarial Networks

作者:Han Zhang, Ian Goodfellow, Dimitris Metaxas, Augustus Odena

https://arxiv.org/abs/1805.08318


论文摘要

在这篇论文中,我们提出了自注意力生成对抗网络(SAGAN),它允许对图像生成任务进行注意力驱动、长期依赖关系建模。

在低分辨率特征图中,传统的卷积GAN只根据空间局部点生成高分辨率细节。在SAGAN中,可以使用来自所有特征位置的线索生成细节。此外,该鉴别器还可以检查图像中较远部分的细节特征是否一致。

最近的研究表明,生成器的调节会影响GAN的性能。利用这一点,我们将频谱归一化应用于GAN发生器,并发现这改善了训练的动态性。

在具有挑战性的ImageNet数据集上,提出的SAGAN实现了最佳的结果,将最佳Inception分数从36.8提高到52.52,并将Frechet Inception距离从27.62降低到18.65。注意力层的可视化显示,生成器利用的是与对象形状对应的邻域,而不是固定形状的局部区域。

概要总结

传统的卷积神经网络在图像合成方面显示了较为优秀的结果。然而,它们至少有一个重要的弱点——单独的卷积层无法捕捉图像中的几何和结构模式。由于卷积是一种局部操作,所以左上方的输出几乎不可能与右下方的输出有任何关系。

本文介绍了一个简单的解决方案 - 将自注意力机制纳入GAN框架。 该解决方案与几种稳定技术相结合,有助于自注意力生成对抗网络(SAGAN)在图像合成中实现最佳的结果。


必读!2018最具突破性计算机视觉论文Top 10(下)


核心思想

  • 单独的卷积层在计算图像中的长程依赖关系计算时效率低。相反,将自注意机制融入到GAN框架中,将使生成器和鉴别器都能够有效地建模广泛分离的空间区域之间的关系。
  • 自注意力模块将一个位置的响应计算为所有位置特征的加权和。
  • 以下技术有助于在具有挑战性的数据集上稳定GAN的训练:


  • 对发生器和鉴别器应用光谱归一化。研究人员认为,鉴别器和发生器都能从光谱归一化中受益,因为它可以防止参数幅度的增大,避免异常梯度。
  • 对发生器和鉴别器使用单独的学习速率来补偿正则化鉴别器中慢学习的问题,并使每个鉴别器步骤使用更少的发生器步骤成为可能。


最重要的成果

  • 事实上,将自注意力模块合并到GAN框架中可以有效地建模长期依赖关系。
  • 验证了所提出的稳定化技术在GAN训练中的有效性。特别是表明:


  • 应用于生成器的频谱归一化稳定了GAN训练;
  • 利用不均衡的学习速率可以加快正规化鉴别器的训练。


  • 通过将Inception的分数从36.8提高到52.52,并将Frechet Inception的距离从27.62降低到18.65,从而在图像合成方面获得最先进的结果。


AI社区的评价

威斯康星大学麦迪逊分校统计学助理Sebastian Raschka教授表示:“这个想法简单直观,却非常有效,而且易于实施。”

未来研究方向

探索减少GAN产生的奇怪样本数量的可能性

可能的应用

使用GAN进行图像合成可以替代用于广告和电子商务目的的昂贵手工媒体创建。

代码

GitHub上提供了自注意力GAN的PyTorch和TensorFlow实现。

PyTorch:

https://github.com/heykeetae/Self-Attention-GAN

TensorFlow:

https://github.com/brain-research/self-attention-gan




7、GANimation


标题:从单个图像中获取具有人脸解剖结构的面部动画

作者:Albert Pumarola, Antonio Agudo, Aleix M. Martinez, Alberto Sanfeliu, Francesc Moreno-Noguer

https://arxiv.org/abs/1807.09251


论文摘要

若是能单凭一张图像就能自动地将面部表情生成动画,那么将会为其它领域中的新应用打开大门,包括电影行业、摄影技术、时尚和电子商务等等。随着生成网络和对抗网络的流行,这项任务取得了重大进展。像StarGAN这样的结构不仅能够合成新表情,还能改变面部的其他属性,如年龄、发色或性别。虽然StarGAN具有通用性,但它只能在离散的属性中改变面部的一个特定方面,例如在面部表情合成任务中,对RaFD数据集进行训练,该数据集只有8个面部表情的二元标签(binary label),分别是悲伤、中立、愤怒、轻蔑、厌恶、惊讶、恐惧和快乐。

为达到这个目的,我们使用EmotioNet数据集,它包含100万张面部表情(使用其中的20万张)图像。并且构建了一个GAN体系结构,其条件是一个一维向量:表示存在/缺失以及每个动作单元的大小。我们以一种无监督的方式训练这个结构,仅需使用激活的AUs图像。为了避免在不同表情下,对同一个人的图像进行训练时出现冗余现象,将该任务分为两个阶段。首先,给定一张训练照片,考虑一个基于AU条件的双向对抗结构,并在期望的表情下呈现一张新图像。然后将合成的图像还原到原始的样子,这样可以直接与输入图像进行比较,并结合损失来评估生成图像的照片级真实感。此外,该系统还超越了最先进的技术,因为它可以在不断变化的背景和照明条件下处理图像。

概要总结

本文介绍了一种新的GAN模型,该模型能够在不断变化的背景和光照条件下,从单个图像生成具有解剖学感知的面部动画。而在此之前,只能解决离散情感类编辑和人像图像的问题。该方法通过将面部变形编码为动作单元来呈现多种情绪。即使在具有挑战性的光照条件和背景,得到的动画演示了一个非常平滑和一致的转换帧。


必读!2018最具突破性计算机视觉论文Top 10(下)


核心思想

  • 面部表情可以用动作单元(AU)来描述,其在解剖学上描述特定面部肌肉的收缩。 例如,“恐惧”的面部表情通常通过以下激活产生:Inner Brow Raiser(AU1),Outer Brow Raiser(AU2),Brow Lowerer(AU4),Upper Lid Raiser(AU5),Lid Tightener(AU7) ,Lip Stretcher(AU20)和Jaw Drop(AU26)。 每个AU的大小定义了情绪的程度。
  • 合成人脸动画的模型是基于GAN架构的,它以一维向量为条件,表示每个动作单元的存在/不存在和大小。
  • 为了避免同一人在不同表情下的训练图像对的需要,使用双向发生器将图像转换成所需的表情,并将合成的图像转换回原始姿态。
  • 为了在不断变化的背景和光照条件下处理图像,该模型包括一个注意力层,该注意力层只将网络的动作集中在图像中与表达新表情相关的区域。


最重要的成果

  • 引入一种全新的GAN模型用于野外人脸动画,该模型可以在完全无监督的情况下进行训练,并在具有挑战性的光照条件和非真实世界数据的情况下,通过帧间非常平滑和一致的转换生成具有视觉吸引力的图像。
  • 演示如何通过在GAN已经看到的情绪之间进行插值来生成更丰富的情绪。


AI社区的评价

  • 该论文在欧洲计算机视觉会议(ECCV 2018)上获得了荣誉奖。


未来研究方向

  • 将该方法应用于视频序列。


可能的应用

  • 这项技术可以从一张图片中自动生成面部表情动画,可以应用于时尚界和电子商务、电影行业、摄影技术等多个领域。


代码

作者提供了本研究论文在GitHub上的原始实现地址:

https://github.com/albertpumarola/GANimation




8、视频到视频的合成


标题:视频到视频的合成Video-to-Video Synthesis

作者:Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Guilin Liu, Andrew Tao, Jan Kautz, Bryan Catanzaro

https://arxiv.org/abs/1808.06601


论文摘要

本文研究的问题是视频到视频(Video-to-Video)的合成,其目标是学习一个映射函数从一个输入源视频(例如,语义分割掩码序列)到一个输出逼真的视频,准确地描述了源视频的内容。

与之对应的图像到图像的合成问题是一个热门话题,而视频到视频的合成问题在文献中研究较少。在不了解时间动态的情况下,直接将现有的图像合成方法应用于输入视频往往会导致视频在时间上不连贯,视觉质量低下。

本文提出了一种在生成对抗学习框架下的视频合成方法。通过精心设计的生成器和鉴别器架构,再加上时空对抗目标,可以在一组不同的输入格式(包括分割掩码、草图和姿势)上获得高分辨率、逼真的、时间相干的视频结果。

在多个基准上的实验表明,与强基线相比,本文的方法具有优势。特别是该模型能够合成长达30秒的街道场景的2K分辨率视频,大大提高了视频合成的技术水平。最后,将该方法应用于未来的视频预测,表现优于几个最先进的系统。

概要总结

英伟达的研究人员引入了一种新的视频合成方法。该框架基于条件甘斯。具体地说,该方法将精心设计的发生器和鉴别器与时空对抗性目标相结合。实验表明,所提出的vid2vid方法可以在不同的输入格式(包括分割掩码、草图和姿势)上合成高分辨率、逼真、时间相干的视频。它还可以预测下一帧,其结果远远优于基线模型。


必读!2018最具突破性计算机视觉论文Top 10(下)


核心思想

  • 视频帧可以按顺序生成,每个帧的生成只取决于三个因素:
  • 电流源帧;
  • 之前的两个源帧;
  • 之前两个生成的帧。
  • 使用多个鉴别器可以缓解GAN训练过程中的模式崩溃问题:
  • 条件图像鉴别器确保每个输出帧类似于给定相同源图像的真实图像;
  • 条件视频鉴别器确保连续输出帧类似于给定相同光流的真实视频的时间动态。
  • 在生成器设计中,前背景先验进一步提高了模型的综合性能。
  • 使用软遮挡掩码代替二进制可以更好地处理“放大”场景:我们可以通过逐渐混合扭曲像素和新合成像素来添加细节。


最重要的成果

  • 在视频合成方面优于强基线:
  • 生成高分辨率(2048х2048)、逼真、时间相干视频30秒;
  • 根据采样不同的特征向量,输出多个具有不同视觉外观的视频。
  • 在未来的视频预测中优于基线模型:
  • 开源了一个PyTorch技术的实现。此代码可用于:
  • 将语义标签转换为现实世界的视频;
  • 从边缘映射生成正在说话的人的多个输出;
  • 在给定的姿势下生成整个人体。


AI社区的评价

  • 艺术家兼程序员吉恩·科根(Gene Kogan)说:“英伟达的新vid2vid是第一个开源代码,它可以让你从一个源视频中令人信服地伪造任何人的脸。”
  • 这篇论文也受到了一些批评,因为有人担心它可能被用来制作深度伪造或篡改的视频,从而欺骗人们。


未来研究方向

  • 使用对象跟踪信息,确保每个对象在整个视频中具有一致的外观。
  • 研究是否使用较粗糙的语义标签训练模型将有助于减少在语义操纵之后出现的可见伪像(例如,将树木变成建筑物)。
  • 添加额外的3D线索,如深度地图,以支持汽车转弯的合成。


可能的应用

  • 市场营销和广告可以从vid2vid方法创造的机会中获益(例如,在视频中替换面部甚至整个身体)。然而,这应该谨慎使用,需要想到道德伦理方面的一些顾虑。


代码

英伟达团队提供了本研究论文在GitHub上的原始实现的代码:

https://github.com/NVIDIA/vid2vid




9、人人来跳舞


标题:人人都在跳舞

作者:Caroline Chan, Shiry Ginosar, Tinghui Zhou, Alexei A. Efros

https://arxiv.org/abs/1808.07371


论文摘要

本文提出了一种简单的“按我做”的动作转移方法:给定一个人跳舞的源视频,我们可以在目标对象执行标准动作几分钟后将该表演转换为一个新的(业余)目标。

本文提出这个问题作为每帧图像到图像的转换与时空平滑。利用位姿检测作为源和目标之间的中间表示,我们调整这个设置为时间相干视频生成,包括现实的人脸合成。学习了从位姿图像到目标对象外观的映射。视频演示可以在https://youtu.be/PCBTZh41Ris找到。

概要总结

加州大学伯克利分校的研究人员提出了一种简单的方法,可以让业余舞蹈演员像专业舞蹈演员一样表演,从而生成视频。如果你想参加这个实验,你所需要做的就是录下你自己表演一些标准动作的几分钟的视频,然后拿起你想要重复的舞蹈的视频。

神经网络将完成主要工作:它将问题解决为具有时空平滑的每帧图像到图像的转换。通过将每帧上的预测调整为前一时间步长的预测以获得时间平滑度并应用专门的GAN进行逼真的面部合成,该方法实现了非常惊人的结果。

必读!2018最具突破性计算机视觉论文Top 10(下)



核心思想

  • “跟我做”动传递被视为每帧图像到图像的平移,姿势棒图作为源和目标之间的中间表示:


  • 预先训练的最先进的姿势检测器根据源视频创建姿势棒图;
  • 应用全局姿势标准化来解释框架内的体形和位置中的源和目标主体之间的差异;
  • 标准化的姿势棒图被映射到目标对象。


  • 为了使视频流畅,研究人员建议在先前生成的帧上调节发生器,然后将两个图像提供给鉴别器。 姿势关键点上的高斯平滑允许进一步减少抖动。
  • 为了生成更逼真的面部,该方法包括额外的面部特定GAN,其在主生成完成之后刷新面部。


最重要的成果

  • 根据定性和定量评估,提出了一种优于强基线(pix2pixHD)的运动传输新方法。
  • 演示特定于人脸的GAN为输出视频添加了相当多的细节。


AI社区的评价

  • 谷歌大脑的技术人员汤姆·布朗(Tom Brown)说:“总的来说,我觉得这真的很有趣,而且执行得很好。期待代码的公布,这样我就可以开始训练我的舞步了。”
  • Facebook人工智能研究工程师Soumith Chintala说:“卡洛琳·陈(Caroline Chan)、阿廖沙·埃夫罗斯(Alyosha Efros)和团队将舞蹈动作从一个主题转移到另一个主题。只有这样我才能跳得好。了不起的工作! ! !”


未来研究方向

  • 用时间相干的输入和专门为运动传输优化的表示来替换姿态棒图。


可能的应用

  • “跟我做”在制作营销和宣传视频时,可能会应用动作转移来替换主题。


代码

本研究论文的PyTorch实现可在GitHub上获得:

https://github.com/nyoki-mtl/pytorch-EverybodyDanceNow




10、用于高保真自然图像合成的大规模GAN训练


标题:Large Scale GAN Training For High Fidelity Natural Image Synthesis

By Andrew Brock,Jeff Donahue,Karen Simonyan(2018)

https://arxiv.org/abs/1809.11096

论文摘要

尽管生成图像建模最近取得了进展,但从ImageNet等复杂数据集成功生成高分辨率、多样化的样本仍然是一个难以实现的目标。为此,我们在最大的规模下进行了生成对抗网络的训练,并研究了这种规模下的不稳定性。我们发现,将正交正则化应用于发生器,使其服从于一个简单的“截断技巧”,可以允许通过截断潜在空间来精细控制样本保真度和多样性之间的权衡。 我们的修改使得模型在类条件图像合成中达到了新的技术水平。 当我们在ImageNet上以128×128分辨率进行训练时,我们的模型(BigGAN)的初始得分(IS)为166.3,Frechet初始距离(FID)为9.6。

概览

DeepMind团队发现,当前的技术足以从现有数据集(如ImageNet和JFT-300M)合成高分辨率、多样化的图像。他们特别指出,生成对抗网络(GANs)可以生成看起来非常逼真的图像,如果它们在非常大的范围内进行训练,即使用比以前实验多2到4倍的参数和8倍的批处理大小。这些大规模的GAN,或BigGAN,是类条件图像合成的最新技术。

必读!2018最具突破性计算机视觉论文Top 10(下)



核心思想

  • 随着批(batch)大小和参数数量的增加,GAN的性能更好。
  • 将正交正则化应用到生成器中,使模型响应特定的技术(“截断技巧”),该技术提供了对样本保真度和多样性之间的权衡的控制。

最重要的成果

  • 证明GAN可以从scaling中获益;
  • 构建允许显式、细粒度地控制样本多样性和保真度之间权衡的模型;
  • 发现大规模GAN的不稳定性;
  • BigGAN在ImageNet上以128×128分辨率进行训练:初始得分(IS)为166.3,之前的最佳IS为52.52;Frechet Inception Distance (FID)为9.6,之前最好的FID为18.65。

AI社区的评价

  • 该论文正在为ICLR 2019做准备;
  • 自从Big Hub上线BigGAN发生器之后,来自世界各地的AI研究人员正在玩BigGAN,来生成狗,手表,比基尼图像,蒙娜丽莎,海滨以及更多主题。

未来研究方向

  • 迁移到更大的数据集以减少GAN稳定性问题;
  • 探索减少GAN产生的奇怪样本数量的可能性。

可能的应用

  • 取代昂贵的手工媒体创作,用于广告和电子商务的目的。
新智元报道来源: topbots.com

关注V信公众号:七月在线实验室,查看更多干货资料,BAT面试题等


分享到:


相關文章: