视频会议阿凡达背后 一阶运动模型功不可没

视频会议新玩法,荣登Gibhub热榜的Avatarify“视频会议阿凡达”,实现一键换脸。这背后的技术基于名为

一阶动画First Order Motion的核心模型,这个模型可以对视频中的对象进行动画处理,并生成视频序列。

视频会议阿凡达背后 一阶运动模型功不可没

一阶动画模型First Order Motion Model

First Order Motion模型来自 NeurIPS 2019 论文《First Order Motion Model for Image Animation》,其初衷是让“静态图片”动起来。

视频会议阿凡达背后 一阶运动模型功不可没

一阶动画模型的思想是用一组自学习的关键点和局部仿射变换来建立复杂运动模型,目的是为了解决大目标姿势动态变化的情况下,传统模型生成质量较差的问题。整个模型分为运动估计模块和图像生成模块两个主要组成部分。在运动估计模块中,该模型通过自监督学习将目标物体的外观和运动信息进行分离,并进行特征表示。而在图像生成模块中,模型会对目标运动期间出现的遮挡进行建模,然后从给定的名人图片中提取外观信息,结合先前获得的特征表示,进行视频合成。

但该模型对硬件要求比较高,想实现33帧/秒的视频效果,需要一张1080ti显卡,也即需要英伟达10系显卡中的卡皇加持。

运作流程图

视频会议阿凡达背后 一阶运动模型功不可没

经过在四个数据集——VoxCeleb 数据集、UvA-Nemo 数据集、The BAIR robot pushing dataset、自研高分辨率数据集Thai-Chi-HD的训练和测试,一阶动画模型能够渲染分辨率非常高的视频,且对比X2Face有明显优势。

文章部分素材来源:雷锋网


分享到:


相關文章: