DoubleFusion:深度和骨架結合的解決方案

DoubleFusion:深度和骨架結合的解決方案

我們已經介紹過很多單目的動作捕捉方案,最近的單目動捕方案可以說大同小異,在原理上基本沒有什麼區別,都是利用卷積神經網絡識別對象,估算骨骼模型,再在此基礎上進行渲染。這些解決方案的困難也都類似,例如老大難的遮擋問題,腳踝處的識別和骨骼模型往往估計不準等等。

DoubleFusion:深度和骨架結合的解決方案

最近,清華、北航、南加州大學、馬克思普朗克研究所等的研究人員合作了一篇論文DoubleFusion: Real-time Capture of Human Performances with Inner Body Shapes from a Single Depth Sensor,提出了一種叫做DoubleFusion、基於單個深度攝像頭的解決方案,對人體動作捕捉識別有更好的效果。

DoubleFusion:深度和骨架結合的解決方案

簡單地講,DoubleFusion的原理是這樣的,一般深度攝像頭的動作捕捉來源於深度數據,因此可以構建人身體的表面形狀(即包含衣服在內的外形數據),但這種方案難以在有遮擋的情況下實現捕捉,為了補足深度捕捉的缺憾,DoubleFusion將它和估算骨架模型的方案融合了起來,因此形成了一個“雙層表面表示”,外層是深度數據得到的表面重建的數據,內層則是骨架模型數據,最終計算得到最合理的動作數據。我們看到的完整的身體模型,實際上是內外兩層數據相互制約、相互融合的結果。

DoubleFusion:深度和骨架結合的解決方案

具體來說,DoubleFusion的輸入只有捕獲的深度數據,而輸出是捕捉目標的雙層表面。在骨架估計方面,它採用最近出現的基於Mask-RCNN的模型SMPL,可以非常迅速的得到比較完美的骨架模型,在外表數據方面,採用同樣是近年來提出的捕獲方法DynamicFusion。外表數據生成一個節點圖,主要用於判斷姿勢變化方式,骨架數據同樣形成節點圖,主要用作判據,儘量避免姿勢變化中違法骨骼連接的情況。

那麼,這個方案的實際效果如何?

DoubleFusion方案比單方面骨架模型估計的方案效果更好,例如與BodyFusion相比較, 後者即使較緊身的衣服也會對結果產生影響,而前者捕捉的結果更為乾淨、完整;另外DoubleFusion的每幀最大誤差更小,而且平均誤差也較小,在捕捉快速運動期間表現也要更好,還有,實時重建的身體形狀和顯示的目標穿著看起來也要更合理一些。

DoubleFusion:深度和骨架結合的解決方案

DoubleFusion:深度和骨架結合的解決方案

從性能上來說,測試環境中,DoubleFusion每一幀執行6次ICP迭代,進行關節運動跟蹤需要21毫秒,9毫秒用於體積形狀和身體姿態的優化;另外,輸入的深度數據屬於異步運行處理,算上運行時間不到1毫秒,綜合下來基本是每幀32毫秒。

然而,這種解決方案還是存在限制,例如,當用戶穿著較厚的衣服時,這個方案在捕捉過程中會將衣服的厚度都當成人的身體來計算,導致身體建模的誤差出現;另外,目前的方案還無法處理人物對象之間的交互,不過按照論文的說法,這將會在未來的研究中得到解決。

DoubleFusion:深度和骨架結合的解決方案

最後,必須要說的是,這篇論文提出的解決方案效果可能比較好,但要實現它,深度攝像頭至少是必須品,而現在的市場上仍然有很大一部分智能手機沒有深度攝像頭,否則之前的普通攝像頭單目動捕也不至於備受關注。從這個方面來說,論文中解決方案的實用價值可能並沒有我們想象中那麼大。

對這篇文章感興趣的同學可以戳https://arxiv.org/abs/1804.06023 下載瞭解。

DoubleFusion:深度和骨架結合的解決方案

DoubleFusion:深度和骨架結合的解決方案


分享到:


相關文章: