“嘿!Siri,請讓我看看你的臉?好的


“嘿!Siri,請讓我看看你的臉?好的

程序猿阿政 2020-02-20 14:08

“沒問題,什麼樣的臉我都能給你呈現。” 不僅如此,現在還可以根據你自己的聲音或是一段文字,再選擇一張臉,就能讓TA說話,甚至對話。

這個黑科技叫Motionface,只要一句話、一段文字,隨便一張臉就能說話。

Motionface是音頻驅動的面部視頻合成技術

“嘿!Siri,請讓我看看你的臉?好的


“嘿!Siri,請讓我看看你的臉?好的


根據下面的這段文字,生成了美國四位總統的演講視頻,跟我們印象中他們說話的樣子如出一轍。


“嘿!Siri,請讓我看看你的臉?好的

與最先進的基於音頻驅動的面部視頻合成技術相比,該方法能夠適用於多個目標。


“嘿!Siri,請讓我看看你的臉?好的

和基於2D的“You said that?”(基於GAN)方法相比,雖然它們不需要3D模型就可以工作,但作者的這項工作能夠保證輸出視頻的3D一致性。

並且生成的是視頻,而不是標準化的圖像。


“嘿!Siri,請讓我看看你的臉?好的


什麼原理?

研究人員採用3D面部模型作為面部運動的中間表示,為了實現根據一句話就能再現逼真的面部視頻。

關鍵部分是基於聲音的面部表情估計,採用了一個兩階段的過程

基於驅動人臉模型的表情預測,對目標視頻圖像空間進行神經紋理處理。

這一步包括兩個網絡。第一個網絡用於將從神經紋理中採樣的神經描述符轉換為RGB顏色值。第二個網絡將此圖像嵌入到目標視頻幀中。

最後,採用了一種新的延遲神經渲染(deferred neural rendering)技術來生成最終的輸出圖像。


“嘿!Siri,請讓我看看你的臉?好的


原理比較複雜可能不是小編三言兩語可表達清楚。

安卓可體驗輕量級版本,感興趣的可以自行體驗版。這項技術可以運用在虛擬主播\\虛擬形象,影視製作等方面。如果說要完全替換明星從視覺上可以實現,但是聲音模擬上技術還未達到。雖然說目前高德地圖有林志玲語音導航,要知道這個林志玲語音導航實現是請林志玲錄製很多聲音再通過機器學習才模擬出來的效果,不能通過隨意一段音頻模擬。

而motionface就是隨便通過一張相片模擬出人臉各種形態,可以說技術上達到一定高度。

當你說:“嘿!Siri,請讓我看看你的臉?

你不妨拿出自己的iPhone,打開Siri試一下,看看得到了什麼回覆,請評論在下面吧。


分享到:


相關文章: