視頻會議阿凡達背後 一階運動模型功不可沒

視頻會議新玩法,榮登Gibhub熱榜的Avatarify“視頻會議阿凡達”,實現一鍵換臉。這背後的技術基於名為

一階動畫First Order Motion的核心模型,這個模型可以對視頻中的對象進行動畫處理,並生成視頻序列。

視頻會議阿凡達背後 一階運動模型功不可沒

一階動畫模型First Order Motion Model

First Order Motion模型來自 NeurIPS 2019 論文《First Order Motion Model for Image Animation》,其初衷是讓“靜態圖片”動起來。

視頻會議阿凡達背後 一階運動模型功不可沒

一階動畫模型的思想是用一組自學習的關鍵點和局部仿射變換來建立複雜運動模型,目的是為了解決大目標姿勢動態變化的情況下,傳統模型生成質量較差的問題。整個模型分為運動估計模塊和圖像生成模塊兩個主要組成部分。在運動估計模塊中,該模型通過自監督學習將目標物體的外觀和運動信息進行分離,並進行特徵表示。而在圖像生成模塊中,模型會對目標運動期間出現的遮擋進行建模,然後從給定的名人圖片中提取外觀信息,結合先前獲得的特徵表示,進行視頻合成。

但該模型對硬件要求比較高,想實現33幀/秒的視頻效果,需要一張1080ti顯卡,也即需要英偉達10系顯卡中的卡皇加持。

運作流程圖

視頻會議阿凡達背後 一階運動模型功不可沒

經過在四個數據集——VoxCeleb 數據集、UvA-Nemo 數據集、The BAIR robot pushing dataset、自研高分辨率數據集Thai-Chi-HD的訓練和測試,一階動畫模型能夠渲染分辨率非常高的視頻,且對比X2Face有明顯優勢。

文章部分素材來源:雷鋒網


分享到:


相關文章: