十三 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
“嘿!Siri,我能看看你的臉嗎?”
“沒問題,什麼樣的臉我都能給你呈現。”
不僅如此,現在還可以根據你自己的聲音或是一段文字,再選擇一張臉,就能讓TA說話。
這個黑科技叫Neural Voice Puppetry,來自慕尼黑科技大學和馬普所。
只要一句話,一段文字,隨便一張臉就能說話
Neural Voice Puppetry是音頻驅動的面部視頻合成技術。
只要輸入一段音頻,就能根據它生成人物說話的視頻,而且還十分逼真。
下圖就是生成的奧巴馬演講視頻,從嘴型到說話的神態都非常自然。
給出一段文字,也可以生成人說話的視頻。
根據下面的這段文字,生成了美國四位總統的演講視頻,跟我們印象中他們說話的樣子如出一轍。
類似於這樣的技術之前也是有過,但從效果和功能上看,Neural Voice Puppetry取得了一定的進步。
與最先進的基於音頻驅動的面部視頻合成技術相比,該方法能夠適用於多個目標。
與VOCA相比,只需要一個3D代理(proxy)作為中間步驟,並沒有對視頻做特殊處理。
和Speech2Vid相比,使用的是3D模型來保證輸出視頻的逼真程度。
和基於2D的“You said that?”(基於GAN)方法相比,雖然它們不需要3D模型就可以工作,但作者的這項工作能夠保證輸出視頻的3D一致性。
並且生成的是視頻,而不是標準化的圖像。
在人物表情非常扭曲的時候,輸出的結果也是非常穩健的。
△觀看文章開頭視頻效果更佳
不僅如此,還能對不同語言做處理。
什麼原理?
為了實現根據一句話就能再現逼真的面部視頻,研究人員採用3D面部模型作為面部運動的中間表示。
Neural Voice Puppetry的關鍵部分是基於聲音的面部表情估計,採用了一個兩階段的過程。
首先是Audio2ExpressionNet,根據DeepSpeech特徵來估計每一幀的表徵。
這個網絡的輸出是長度為32的音頻表徵向量。
這個音頻表徵是有時間噪聲的,使用一個表徵感知過濾網絡進行過濾,該網絡可以與每幀表徵估計網絡一起訓練。
使用了5個核尺寸為3的一維卷積濾波器,將特徵空間從32×8 、16×8、8×8、4×8、2×8到1×8依次縮小。
其次是Rendering network。
基於驅動人臉模型的表情預測,對目標視頻圖像空間進行神經紋理處理。
這一步包括兩個網絡。第一個網絡用於將從神經紋理中採樣的神經描述符轉換為RGB顏色值。第二個網絡將此圖像嵌入到目標視頻幀中。
最後,採用了一種新的延遲神經渲染(deferred neural rendering)技術來生成最終的輸出圖像。
下一步工作
雖然Neural Voice Puppetry對不同的音頻源和目標視頻效果很好,但它仍然有侷限性。
特別是在音頻流中有多個聲音的情況下,該方法會失效。
另外還有一個侷限性是談話風格較為固定。
因為研究人員假設目標參與者在一個目標序列中的談話風格是不變得。
在後續的工作中,研究人員計劃從語音信號來估計說話風格,以此來控制面部動作的表現力。
團隊介紹
△Justus Thies
Justus Thies,慕尼黑工業大學視覺計算組的博士後。2017年,獲得埃爾朗根-紐倫堡大學的博士學位,主要研究面部表情的無標記運動捕捉及其應用。近期專注於神經圖像合成技術,允許視頻編輯和創作。工作領域結合了計算機視覺、機器學習和計算機圖形學視覺。
△Mohamed Elgharib
Mohamed Elgharib,馬普所計算機圖形學部分。主要研究領域包括可視真實感渲染、3D重建及視頻後期製作等。
△Ayush Tewari
Ayush Tewari,馬普所計算機圖形學部門。
△Christian Theobalt
Christian Theobalt,馬普所圖形、視覺和視頻研究小組組長,沙爾大學計算機科學教授。
△Matthias Nießner
Matthias Nießner,慕尼黑工業大學教授,可視化計算小組。研究領域包括計算機視覺、圖形學和機器學習的交叉領域。對3D 重建、語義3D 場景理解、視頻編輯和人工智能驅動的視頻合成等尖端技術特別感興趣。
傳送門
論文地址:
https://arxiv.org/pdf/1912.05566.pdf
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態
閱讀更多 量子位 的文章