MIT、DeepMind發佈CLEVRER數據集,推動視頻理解的因果邏輯推理

機器之心發佈

機器之心編輯部

大多數視頻推理數據集的側重點是從複雜的視覺和語言輸入中進行模式識別,而不是基於因果結構。在這篇 ICLR 2020 論文中,麻省理工、DeepMind 的研究者提出了一種針對時間和因果推理問題的數據集,包含 20,000 個關於碰撞物體的合成視頻以及 300,000 多個問題和答案,從互補的角度研究了視頻中的時間和因果推理問題。

MIT、DeepMind發佈CLEVRER數據集,推動視頻理解的因果邏輯推理

論文鏈接:https://arxiv.org/abs/1910.01442

項目鏈接:http://clevrer.csail.mit.edu/

從視頻的物理事件中識別物體並推斷其運動軌跡的能力是人類認知發展的核心。人類,即使是幼兒,也能夠通過運動將圖片區域劃分為多個物體,並使用物體的永久性、實體性和連貫性的概念來解釋發生了什麼,推斷將發生什麼以及想象在反事實情況下會發生什麼。

在靜態圖像和視頻上提出的各種數據集的推動下,複雜視覺推理問題已經在人工智能和計算機視覺領域得到了廣泛研究。然而,大多數視頻推理數據集的側重點是從複雜的視覺和語言輸入中進行模式識別,而不是基於因果結構。儘管這些數據集涵蓋了視覺的複雜性和多樣性,但推理過程背後的基本邏輯、時間和因果結構卻很少被探索。

在這篇論文中,麻省理工和 DeepMind 的研究者從互補的角度研究了視頻中的時間和因果推理問題。受視覺推理數據集 CLEVR 的啟發,他們簡化了視覺識別問題,但增強了交互對象背後的時間和因果結構的複雜度。結合從發展心理學中汲取的靈感,他們提出了一種針對時間和因果推理問題的數據集。

CLEVRER

研究者將這個數據集稱為基於碰撞事件的視頻推理(CLEVRER)。CLEVRER 的設計遵循兩個準則:首先,發佈的任務應側重於在時間和因果上的邏輯推理,同時,保持簡單以及在視覺場景和語言上出現的偏差最小;其次,數據集應完全可控並正確標註,以承載複雜的視覺推理任務併為模型提供有效的評估。

CLEVRER 包含 20,000 個關於碰撞物體的合成視頻以及 300,000 多個問題和答案。問題的類型包括以下四種,如下圖所示:

描述性(「什麼顏色」)

解釋性(「什麼原因」)

預測性(「將發生什麼」)

反事實(「如果…會發生什麼」)

MIT、DeepMind發佈CLEVRER數據集,推動視頻理解的因果邏輯推理

CLEVRER 附帶有視頻中每個對象的真實運動軌跡和事件歷史記錄。每個問題都與代表其基本邏輯的程序匹配。如下表所示,CLEVRER 在多個方面補充了現有的視覺推理數據集,並引入了一些新穎的任務。

MIT、DeepMind發佈CLEVRER數據集,推動視頻理解的因果邏輯推理

研究者對各種最新的視覺推理模型在 CLEVRER 上進行了評估,結果如下表所示。儘管這些模型在描述性問題上表現良好,但它們缺乏因果推理的能力,在解釋性,預測性和反事實問題上表現不佳。

MIT、DeepMind發佈CLEVRER數據集,推動視頻理解的因果邏輯推理

他們認為視覺推理任務包含三個關鍵要素:視頻中的物體和事件的識別;物體與事件之間動力學和因果關係的建模;理解問題背後的符號邏輯。作為對此原理的初步探索,他們提出了一種新的預測模型——結合神經網絡和符號表徵的動態推理(NS-DR),通過視頻符號表徵將這些要素明確地聯結在一起。

NS-DR 模型

NS-DR 模型結合了用於模式識別和動力學預測的神經網絡,以及用於因果推理的符號邏輯。如下圖所示,NS-DR 模型由視頻解析器(Ⅰ)、動態預測器(Ⅱ)、問題解析器(Ⅲ)和程序執行器組成(Ⅳ)。

MIT、DeepMind發佈CLEVRER數據集,推動視頻理解的因果邏輯推理

視頻解析器

研究者使用 ResNet-50 FPN 作為主幹網絡,通過 Mask R-CNN 在每幀視頻上執行物體檢測和場景去渲染。對於輸入的每幀視頻,網絡輸出物體的固有屬性(顏色、材料、形狀)標籤、物體的 mask proposals 以及 proposal 的置信度,由此獲得以物體為中心的視頻表徵。

動態預測器

他們將 PropNet 應用到動態建模中,將物體的 proposals 作為輸入,預測其運動軌跡和碰撞事件。

PropNet 將動態系統表示為有向圖 G=〈O,R〉,其中頂點 O={o_i } 表示物體,邊 R={r_k } 表示關係。每個物體 o_i 和關係 r_k 可以進一步寫成

MIT、DeepMind發佈CLEVRER數據集,推動視頻理解的因果邏輯推理

MIT、DeepMind發佈CLEVRER數據集,推動視頻理解的因果邏輯推理

,其中 s_i 表示物體的狀態;

MIT、DeepMind發佈CLEVRER數據集,推動視頻理解的因果邏輯推理

表示物體的固有屬性;u_k 和 v_k 表示由邊 r_k 連接的接收方和發送方頂點的索引;

MIT、DeepMind發佈CLEVRER數據集,推動視頻理解的因果邏輯推理

表示邊的狀態,即兩個物體之間是否存在碰撞。PropNet 通過多步信息傳遞來處理物體之間的狀態轉移。

問題解析器

使用基於注意力機制的 Seq2Seq 模型將輸入的問題解析為相應的程序,模型由雙向 LSTM 編碼器和注意力 LSTM 解碼器組成。給定輸入單詞序列,編碼器首先在每個步驟生成雙向潛在編碼

MIT、DeepMind發佈CLEVRER數據集,推動視頻理解的因果邏輯推理

然後,解碼器使用注意力機制從潛在編碼中生成一系列程序 token:

MIT、DeepMind發佈CLEVRER數據集,推動視頻理解的因果邏輯推理

其中,編碼器和解碼器均使用兩層隱藏層和 300 維度單詞嵌入向量。

程序執行器

程序執行器在動態預測器提取的運動軌跡和碰撞事件上執行程序,並輸出問題的答案。它包含多個通過 Python 實現的程序模塊,其中共有三種類型:輸入模塊,過濾器模塊和輸出模塊。輸入模塊是程序樹的入口點;過濾器模塊基於固有屬性、運動狀態、時間順序或因果關係對輸入物體/事件執行邏輯運算;輸出模塊返回答案標籤。

NS-DR 性能評估

研究者在 CLEVRER 上評估了 NS-DR 的性能,結果如下表所示。對於描述性問題,他們的模型可達到 88.1%的準確率,顯著優於其他基準方法。在解釋性、預測性和反事實問題上,他們的模型獲得了更大的提升。

MIT、DeepMind發佈CLEVRER數據集,推動視頻理解的因果邏輯推理

NS-DR 將動態規劃納入視覺推理任務中,能夠直接對未觀察到的運動和事件進行預測,並能夠對預測性和反事實性任務進行建模。這表明動態規劃對基於語言的視覺推理任務具有很大的潛力,NS-DR 朝著這個方向邁出了初步探索。此外,符號表徵為視覺、語言、動力學和因果關係提供了強大的共同基礎。通過設計,它使模型能夠明確地捕獲視頻因果結構和問題邏輯。

總結

視頻中時間和因果推理,這個深刻且具有挑戰性的問題已深深植根於人工智能的基礎之上,最近才開始使用「現代」人工智能方法進行研究。他們引入了一系列基準任務,以更好地促進這一領域的研究,新提出的 CLEVRER 數據集和 NS-DR 模型是朝著這個方向邁出的初步嘗試。

研究者希望隨著圖網絡、視覺預測模型和結合神經網絡和符號表徵算法的最新發展,深度學習領域可以在將來更加現實的設置中重新審視這一經典問題,從而獲得超越模式識別的真正智能。


分享到:


相關文章: