DoubleFusion：深度和骨架結合的解決方案健康頭條網

2018-06-24 21:15:31 AR醬

我們已經介紹過很多單目的動作捕捉方案，最近的單目動捕方案可以說大同小異，在原理上基本沒有什麼區別，都是利用卷積神經網絡識別對象，估算骨骼模型，再在此基礎上進行渲染。這些解決方案的困難也都類似，例如老大難的遮擋問題，腳踝處的識別和骨骼模型往往估計不準等等。

最近，清華、北航、南加州大學、馬克思普朗克研究所等的研究人員合作了一篇論文DoubleFusion: Real-time Capture of Human Performances with Inner Body Shapes from a Single Depth Sensor，提出了一種叫做DoubleFusion、基於單個深度攝像頭的解決方案，對人體動作捕捉識別有更好的效果。

DoubleFusion：深度和骨架結合的解決方案

簡單地講，DoubleFusion的原理是這樣的，一般深度攝像頭的動作捕捉來源於深度數據，因此可以構建人身體的表面形狀（即包含衣服在內的外形數據），但這種方案難以在有遮擋的情況下實現捕捉，為了補足深度捕捉的缺憾，DoubleFusion將它和估算骨架模型的方案融合了起來，因此形成了一個“雙層表面表示”，外層是深度數據得到的表面重建的數據，內層則是骨架模型數據，最終計算得到最合理的動作數據。我們看到的完整的身體模型，實際上是內外兩層數據相互制約、相互融合的結果。

DoubleFusion：深度和骨架結合的解決方案

具體來說，DoubleFusion的輸入只有捕獲的深度數據，而輸出是捕捉目標的雙層表面。在骨架估計方面，它採用最近出現的基於Mask-RCNN的模型SMPL，可以非常迅速的得到比較完美的骨架模型，在外表數據方面，採用同樣是近年來提出的捕獲方法DynamicFusion。外表數據生成一個節點圖，主要用於判斷姿勢變化方式，骨架數據同樣形成節點圖，主要用作判據，儘量避免姿勢變化中違法骨骼連接的情況。

那麼，這個方案的實際效果如何？

DoubleFusion方案比單方面骨架模型估計的方案效果更好，例如與BodyFusion相比較，後者即使較緊身的衣服也會對結果產生影響，而前者捕捉的結果更為乾淨、完整；另外DoubleFusion的每幀最大誤差更小，而且平均誤差也較小，在捕捉快速運動期間表現也要更好，還有，實時重建的身體形狀和顯示的目標穿著看起來也要更合理一些。

DoubleFusion：深度和骨架結合的解決方案