Facebook AI 正在升維突破:教AI像人類一樣理解三維世界

為了更好地理解現實世界,AI 系統不僅需要準確識別物體,還必須學會以三維視角理解視覺場景,比如將二維圖片中的沙發、餐桌和茶几以三維建模的方式重現出來。

這對 AI 的圖像理解能力提出了極高的要求,因為它必須知道如何判斷景深,搞清楚對象位於照片的前景還是背景中,甚至要在一定程度上推斷出缺失部分的樣子。

Facebook AI 近日在首爾國際計算機視覺大會(ICCV)上演示了他們在這個領域的最新研究成果,同時也在博客和 arxiv 上發佈了技術簡介和論文,表現驚豔,研究成果之一還獲得了 ICCV 最佳論文提名。

Facebook AI 正在升維突破:教AI像人類一樣理解三維世界

圖 | 將視頻中的沙發和椅子三維化(來源:Facebook)

為了實現這一目標,研究人員不僅開發了新的算法,還整合了多個最新研究成果,包括用來預測 3D 形狀的 Mesh R-CNN 神經網絡框架,用來提取和重建 3D 不規則模型的 C3DPO 方法,用來檢測物體和生成 3D 點雲的 VoteNet 技術以及配套的新型優化算法等等。

研究團隊相信,通過加強對三維物體的瞭解,AI 可以更緊密地連接二維和三維世界,在計算機視覺領域扮演更重要的角色,推動 3D 打印、AR 和 VR 等技術在現實生活中的進步,將這些技術拓展到更廣泛的任務上,最終像人類一樣理解三維世界。

預測受阻擋的 3D 不規則形狀

現有的基於 Mask R-CNN 的圖像理解和感知系統的確很強大,適用廣泛,但它們做出的預測主要以二維數據為依據,忽略了真實世界複雜的三維結構。想要在真實世界中識別和判斷不規則物體的三維數據,例如在雜亂多變的環境中識別和排除遮擋物,需要克服一系列光學挑戰。由於技術原因,僅憑現有的工程框架(Mask R-CNN)難以勝任。

為了應對這些挑戰,

研究人員首先通過網格預測分支(mesh prediction branch)強化了 Mask R-CNN 的 2D 對象分割系統,隨後專門創建了一個 Pytorch 庫 Torch3d,裡面儲存了高度優化後的 3D 運算符,可以幫助實現 3D 物體結構採樣和預測。

簡單來說,新開發的 Mesh R-CNN 框架可以藉助現有的 Mask R-CNN 來檢測和分類圖像中的各種物體,之後使用網格預測器推斷和描繪出一個物體 3D 形狀,最終獲得細粒度的 3D 結構數據。

在這一過程中,Facebook 還使用了 Detectron2 庫。這是一個模塊化物體檢測庫,最早由 Facebook 團隊在 2018 年推出,獲得過多次更新。它將 RGB 圖像視為輸入值,可以檢測物體和預測 3D 形狀,同時還支持捕捉視頻中的物體和動作變化。

與訓練 Mask R-CNN 類似,研究團隊使用了監督學習的方式來訓練 Mesh R-CNN 學習 3D 形狀預測。他們在 Pix3D 和 ShapeNet 兩個數據集上評估了新框架,它成為了第一個可以在所有場景類別中檢測到物體完整 3D 形狀的系統,而且綜合表現也高出之前框架 7%。

通過二維關鍵點重建三維對象

對於無法使用網格的場景,Facebook 研究人員開發了另一種方法:捕捉 2D 關鍵點,再將數據輸入 C3DPO 系統(Canonical 3D Pose Network),用來重建 3D 關鍵點模型。

2D 關鍵點可以通過跟蹤物體特定部分的運動得到,比如人的關節和鳥的翅膀,可以提供物體幾何形狀或視角變化的完整軌跡。這並不難實現,難的是如何生成 3D 關鍵點,這對於 3D 建模來說至關重要,也是在現實中應用潛力最大的地方——更好的建模質量意味著在 VR 中生成更逼真的虛擬頭像。

Facebook AI 正在升維突破:教AI像人類一樣理解三維世界

圖 | 通過二維圖片關鍵點(上)生成三維模型(下)(來源:Facebook)

研究團隊開發的 C3DPO 模型可以重建數十萬張圖像的數據集,每張圖片都包含數千個 2D 關鍵點。在給定一組 2D 關鍵點的前提下,該模型可以預測現有的攝像頭視角參數,並且得出標準視角下 3D 關鍵點的定位信息,對確定物體的相對位置至關重要。

為了克服分解 3D 視角和形狀時的不確定性——AI 需要腦補看不到的地方,存在茫茫多的可能性——研究人員開發了一套正則化技術,包含第二個輔助深度神經網絡,可以隨著 3D 重建網絡一起學習,規範模型重建過程。

Facebook 強調,由於之前基於矩陣分解的方法存在內存限制,這種重建是無法實現的。而新開發的深度網絡 C3DPO 能夠以小批量(minibatch)的狀態運行,效率很高,對硬件的要求大大降低,使得對飛機等大型物體的三維數據捕捉和重建成為可能。

學習如何從像素映射到物體表面

為了減少針對一般物體開發三維形狀數據捕捉的監督程度,

Facebook 團隊開發了一種類似於自動物體分割的方法,適用於未標註圖像。無需明確預測圖像底層的 3D 結構,就可以直接將圖像中的像素映射到 3D 形狀模板的表面上。

這種映射不僅可以幫助系統更好地理解圖像,還能夠幫助歸納相同類別物體之間的關係。以人類為例,當我們看到左側圖像中高亮顯示的鳥喙,就可以輕鬆找到右側圖像中對應的點。

Facebook AI 正在升維突破:教AI像人類一樣理解三維世界

對於 AI 來說,實現像素到物體表面的映射意味著它也可以具備這種能力,因為同類別的物體之間共享了相似的 3D 結構。如果我們訓練 AI 學習如何正確坐在椅子上或者握住杯子,那麼在它學會之後,再換一張椅子或者一個杯子,它對物體 3D 結構的理解也可以幫助其快速掌握新技巧。

這些成果不僅可以幫助 AI 加深對傳統 2D 圖像和視頻內容的理解,還可以用來增強 AR 和 VR 體驗。

研究團隊表示,在評估不同個例之間對應關係的準確性時,新系統的表現優於舊方法兩倍。更重要的是,這種學習方式可以實現從像素到物體表面的映射,並將其與表面到像素的逆向操作配對,從而形成一個從訓練到檢驗的循環,所用的圖片數據集也無需標註,因此大大降低了訓練所需的監督程度。

改善 3D 系統物體檢測任務

最後一個在 3D 建模任務中扮演重要角色的成果是 VoteNet。這是一套為 3D 點雲系統定製的高精度端到端 3D 對象檢測網絡,獲得了 ICCV 2019 的最佳論文提名。

與傳統依賴 2D 圖像信號的點雲系統不同,VoteNet 支持的系統完全基於 3D 點雲,效率和精度都更勝一籌,可以從深度相機獲取 3D 點雲,並返回帶有物體或形狀標註的 3D 邊界框。

它以經典霍夫變換算法為基礎(利用投票的方法檢測物體形狀),引入了一種新的投票機制,可以在物體中心附近生成新點,然後將它們分組和彙總,生成多個 3D 盒狀提案。深度神經網絡在學習如何投票之後,每組 3D 種子點(seed point)會投票決定物體中心,找到它們的位置,綜合起來代表特定物體的位置,還能判斷物體類別,標註它是椅子還是桌子。

Facebook AI 正在升維突破:教AI像人類一樣理解三維世界

圖 | VoteNet 實現方式(來源:Facebook)

研究人員表示,開源的 VoteNet 具有簡單的設計、緊湊的模型和很高的效率,是最先進的 3D 物體檢測方式之一。它僅憑几何信息,無需彩色圖像,就在 SUN GRB-D 和 ScanNet 的測試中超越了現有方法,是捕捉場景中 3D 對象的核心工具

從自動駕駛到生物醫療,3D 掃描技術的應用場景正在快速拓展,因此使用計算機直接理解和分類 3D 場景物體的能力變得愈發重要。這對計算機視覺研究提出了更高的要求,但也是增強 AI 對現實場景理解能力的必要過程,有助於進一步縮小物理空間和虛擬空間的差距,推動 VR 和 AR 等技術的發展,甚至是掀起新一輪技術革命。

最終如果綜合觸覺感官和自然語言理解等技術,我們有朝一日或許能夠見到像人類一樣理解並與現實世界互動的 AI 系統。


分享到:


相關文章: