奧巴慄 發自 麥蒿寺
量子位 報道 | 公眾號 QbitAI
各位說不定還記得,之前有個導演,模仿奧巴馬的聲音吐槽了川普,還把自己的嘴完好地貼到了奧巴馬臉上。
這樣,雖然嘴部有些異樣,但不盯著嘴看的話,也不易察覺吐槽視頻是合成的。
不過,就算只為了那一小撮火眼金睛的觀眾,科學家們大概還是要為合成視頻的逼真程度赴湯蹈火。
最近,普朗克研究所 (MPI) 一群技藝精湛的研究人員,表示他們是第一個,把替身的3D頭部和面部動作整體搬運到目標主角臉上,的團隊。
三位一體
在他們的系統裡,只要輸入一段替身的單人表演視頻,和目標主角的一段單人視頻,就可以讓主角學到頭部和麵部的所有動作。
視頻輸入後,算法會用“面部重構 (face reconstruction) ”的方式追蹤替身和主角,得到一系列參數,用來表示頭部姿勢、面部表情和眼球轉動等等動作。
這些參數向量可以直接輸送到主角的臉上,下一步就是渲染合成的主角圖像。
然後重點來了,團隊建造了一個擁有時空結構 (space-time architecture)的神經網絡,向它輸入渲染過的人臉參數模型,它就能“腦補”出目標主角的逼真視頻,稱為動態肖像 (video portrait) 。
團隊說,這樣的真實度是靠艱苦的對抗訓練來實現的。
成果是,只要有幾分鐘的主角視頻作為訓練素材,替身的表演就可以獲得高質量的繼承。
頭髮、脖子、
肩膀還有目標背景,都會隨著生成的頭部和面部動作,發生自燃的變化。就連背景裡的陰影,也能跟著前景走。想調哪就調哪
另外,如果不想讓頭部跟著一起動,也可以只改表情。
還有啊,如果
不想完全照搬替身的表演,我們還可以手動調節頭的朝向,臉上的表情。任何參數都可以單獨調,也可以整體調。
這就是說,沒有替身,直接給視頻裡的主角改動作也沒問題。眨眨眼,撇下嘴,都可以。
有對比才有傷害
至於這研究成果到底厲害成什麼樣,當然還是要和其他人的算法比比看。不然,極客們怎麼獲得碾壓同行的快感?
首先,他們把自家的動態肖像算法和Thies團隊的Face2Face做了對比。
二者相比,動態肖像大法的表情更加到位,頭部動作更吻合,生成的視頻也就一氣呵成。
第二個對手是Suwajanakorn團隊基於音頻的配音法術。
對方的嘴唇同步很優秀,但沒有給主角任何表情控制技能,效果便略顯僵硬。而己方的面部、頭部和眼球搭配食用,更為自然清新。
第三場比賽,是在頭部運動的選手之間展開。
Averbunch-Elor團隊的算法在動作上和動態肖像相差無幾,但背景明顯扭曲,翻了修圖大計。
對此,普朗克研究所表示,這是因為對方算法是一幀一幀單獨學習的,而他們是用整段視頻來學姿勢。
謙虛地說,還有侷限
雖然,現在生成的視頻已經很接近真實了,但團隊說這個算法還是有自己的侷限性。
比如,人物的活躍範圍,超出了訓練語料庫 (Training Corpus) 的表情和動作,就很難高度還原替身的表演了。
但他們說,這也是多數同行會遇到的問題。
那不就是說,“我做到的你沒做到,我沒做到的你也沒做到”,麼?
論文摘要傳送門:
https://gvv.mpi-inf.mpg.de/projects/DeepVideoPortraits/index.html
視頻演示傳送門:
https://v.qq.com/x/page/b0659sbu642.html
— 完 —
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。
量子位 QbitAI · 頭條號簽約作者
վ'ᴗ' ի 追蹤AI技術和產品新動態
閱讀更多 量子位 的文章