卡內基梅隆大學開源:圖神經網絡和多樣性採樣的聯合3D跟蹤和預測


作者

卡內基梅隆大學開源:圖神經網絡和多樣性採樣的聯合3D跟蹤和預測

介紹


3D多對象跟蹤(MOT)和軌跡預測是目前3D感知系統中的兩個關鍵組件,需要對多主體交互進行精確建模。我們假設將兩個任務統一在一個框架下以瞭解代理交互的共享特徵表示是有益的。為了評估此假設,作者提出了3D MOT和軌跡預測的統一解決方案,其中還合併了兩個其他新穎的計算單元。首先,我們通過引入圖形神經網絡(GNN)來提出一種功能交互技術,以捕獲多個代理相互交互的方式。GNN能夠對複雜的層次結構交互進行建模,改善MOT關聯的判別性特徵學習,併為軌跡預測提供具有社交意識的上下文。其次,我們使用多樣性採樣函數來改善預測軌跡的質量和多樣性。經過訓練的學習採樣功能可以有效地從生成軌跡分佈中提取各種結果,並有助於避免生成許多重複軌跡樣本的問題。我們對KITTI和nuScenes數據集進行了評估,表明我們的具有特徵交互和多樣性採樣的統一方法在3D MOT和軌跡預測上均實現了最新的性能。

卡內基梅隆大學開源:圖神經網絡和多樣性採樣的聯合3D跟蹤和預測

圖1 :(頂部)以前的工作分別研究了3D MOT和軌跡預測。整個管道採用級聯方式,將跟蹤輸出饋送到預測模塊(底部)。我們提出的模型共同實現了跟蹤和預測。此外,我們提出了兩項創新:(1)使用GNN(顯示為藍色)進行功能交互,以在存在多個代理的情況下改善跟蹤關聯和軌跡預測;(2)多樣性採樣(顯示為橙色),以提高採樣效率並生成多樣且準確的軌跡樣本。


為了在MOT和軌跡預測模塊中啟用錯誤反饋機制,作者建議共同優化兩個模塊。具體來說,不是像圖1(頂部)所示那樣單獨運行兩個模塊,而是作者提出的方法如圖1(底部)所示同時執行跟蹤和預測。


結果兩個頭部中計算出的誤差可以傳播回去,從而影響兩個任務的特徵學習,我們相信這將通過我們的聯合學習帶來更好的共享特徵表示。由於軌跡預測可以隱式地迫使網絡學習對象運動動力學,因此我們認為它可以為3D MOT關聯帶來更多區分特徵學習,反之亦然可以改善下游軌跡預測模塊。在存在多個代理的情況下,建模交互至關重要,但是在以前的工作中,尤其是在3D MOT中,這已被忽略。


如圖1(頂部)所示,3D MOT中的現有工作獨立地提取每個對象的特徵,即,一個對象的特徵不與其他對象的特徵交互。我們發現,這種獨立的特徵提取對於判別式特徵學習而言不是次優的。這是因為不同對象的特徵相似性應取決於MOT。


例如,如果兩個對象的特徵相似性是使用GNN和DS 3進行聯合3D跟蹤和預測,則應降低這兩個對象中任何一個與其他對象之間的特徵相似性,以避免MOT關聯中的混淆。為了在3D MOT中建模對象交互,我們提出了一種新穎的特徵交互機制,如圖1(底部)所示。我們通過將圖形神經網絡(GNN)引入3D MOT來實現這一目標。


我們的工作是第一個將GNN應用於MOT的工作。具體來說,我們構造一個圖形,每個節點都是場景中的一個對象。然後,在GNN的每一層,每個節點都可以通過聚合其他節點的特徵來更新其特徵。該節點特徵聚合過程非常有用,因為生成的對象特徵不再被隔離,而是根據其他對象進行了調整。


作者在實驗中觀察到,經過幾層GNN層後,親和力矩陣變得比沒有特徵相互作用的親和力矩陣更具判別力。除了將GNN用於3D MOT之外,GNN的功能交互還與軌跡預測頭共享。儘管之前的一些論文已經將GNN用於軌跡預測,但我們還是第一個在統一的3D MOT和軌跡預測方法中使用GNN。由於對象的未來軌跡由於未觀察到的因素(例如,意圖)而是隨機的和多模態的,因此軌跡預測的先前工作通常使用諸如條件變化自動編碼器(CVAE)和條件生成器之類的深度生成模型來學習未來的軌跡分佈。


生成網絡(CGAN)在測試時,這些方法從生成模型中隨機採樣了一組將來的軌跡,而沒有考慮採樣之間的相關性。結果,樣本可能非常相似,並且僅覆蓋有限數量的模式,從而導致不良的樣本效率。這種效率低下的採樣技術在實時應用中是有害的,因為生成大量樣本可能在計算上昂貴並且會導致高延遲。


此外,如果不涵蓋軌跡分佈中的所有模式並考慮所有可能的未來,感知系統就無法安全地進行計劃,這在諸如自動駕駛等對安全至關重要的應用中非常重要。為了提高軌跡預測中的樣本效率,我們放棄了先前工作中的隨機採樣,而採用了多樣性採樣技術,該技術可以從預訓練的CVAE模型中生成準確且多樣的軌跡樣本。想法是學習一個單獨的採樣網絡,該網絡將目標特徵映射到一組潛在代碼。然後將潛碼解碼為軌跡樣本。這樣,所產生的樣本是相關的(與樣本獨立的隨機樣本不同),這使我們能夠對樣本施加結構約束,例如多樣性。具體來說,我們使用確定點處理(DPPs;)來優化樣本的多樣性。


貢獻


作者團隊主要貢獻如下幾點:


  • 聯合3D MOT和軌跡預測模型,通過聯合優化來改善兩個模塊的性能;
  • 一種使用GNN的新穎的特徵交互機制。據我們所知,我們是第一個為3D MOT引入GNN的人。
  • 引入用於多主體軌跡預測的多樣性採樣,可以產生更準確和多樣化的軌跡樣本。


相關工作


  • 3D多對象跟蹤

使用按檢測跟蹤管道以在線方式接近3D MOT,其中性能主要受兩個因素影響:3D檢測質量和區分性特徵學習。

  • 軌跡預測

軌跡預測是為了預測未來目標物體的地面位置序列。

  • 聯合3D檢測,跟蹤和預測。

在一些先前的工程嘗試針對三個模塊的不同組合進行聯合優化。學習聯合3D檢測器和跟蹤器等。

  • 圖神經網絡

圖神經網絡首次提出,可以使用神經網絡直接處理圖結構化數據。GNN的主要組成部分是節點特徵聚合技術,可以通過與其他節點交互來更新節點特徵。

  • 多樣性抽樣

源於M-Best MAP問題,各種M-Best解決方案和多項選擇學習能夠產生各種解決方案和模型。


方法


提出的方法的目的是同時實現3D MOT和軌跡預測。獲得的當前幀中N個對象的未關聯檢測的集合3D對象檢測器。3DMOT的目標是將當前檢測用於軌跡預測,其目的是預測未來軌跡。


作者的方法實現了整個網絡的聯合跟蹤和預測

如圖1所示(底部),它由五個模塊組成:

(1)特徵提取器編碼過去物體軌跡的特徵以及當前幀;

(2)一種使用GNN更新特徵的交互機制基於其他對象特徵的對象特徵;(3)3D MOT頭計算關聯矩陣,以跟蹤以下對象之間的數據關聯當前幀中的 過去和檢測到的對象;

(4)軌跡預測負責學習CVAE以基於GNN生成未來軌跡


卡內基梅隆大學開源:圖神經網絡和多樣性採樣的聯合3D跟蹤和預測

圖2 :(左)要利用位置和運動提示,(右)提出的基於GNN的特徵交互機制用於更新對象節點特徵

  • 特徵提取為了利用過去對象軌跡的運動和位置信息以及當前幀中的檢測信息進行跟蹤和預測,我們首先學習特徵提取器對信息進行編碼,如圖2(左)所示。
  • 圖神經網絡用於特徵交互圖的構造是特徵提取後獲得了M個特徵{u01,。。。,u0M}用於過去的跟蹤對象,並提供N個功能{v01,。。。,v0N}表示當前幀中檢測到的對象。然後,我們構建一個L層圖神經網絡(GNN),其中每個層都包括M個跟蹤對象和N個當前檢測到的對象的節點(如圖2所示(右))。節點功能聚合為了對GNN中的節點特徵交互進行建模,我們通過聚合每一層中鄰域節點(即由邊連接的節點)中的特徵來迭代更新節點特徵邊緣特徵 由於MOT中親和度矩陣的每個條目通常表示對象特徵的相似性,因此很自然地使用與兩個對象節點特徵相關的邊緣特徵來計算親和度矩陣

3D多目標跟蹤頭

為了解決3D MOT關聯,我們需要基於從過去的M個跟蹤對象和當前幀中的N個檢測到的對象中提取的特徵的成對相似度來學習親和度矩陣A。結果,親和度矩陣A具有M×N的維數,其中每個條目Aij代表被跟蹤對象i和檢測到的對象j之間的相似性得分。


卡內基梅隆大學開源:圖神經網絡和多樣性採樣的聯合3D跟蹤和預測

圖3:損失的3D MOT磁頭

邊緣迴歸:為了學習affinity loss矩陣A,我們採用如圖3所示的邊緣迴歸模塊,該模塊由具有非線性算子的兩層MLP和Sigmoid層組成。


軌跡預測頭


我們的軌跡預測頭旨在學習條件生成模型pθ,該模型基於第i個被跟蹤對象的未來軌跡fi和對應的節點特徵,用來學習其未來軌跡的分佈。


分集採樣技術


為了從預訓練的CVAE模型中獲得多樣化的未來軌跡樣本,我們將多樣性採樣技術引入了我們的多主體軌跡預測中。如圖4所示,我們使用γ參數化的多樣性採樣函數


卡內基梅隆大學開源:圖神經網絡和多樣性採樣的聯合3D跟蹤和預測

圖4:採用多樣性抽樣的軌跡預測。

結果


我們在表1中總結了KITTI和nuScenes數據集上的3D MOT結果。我們的方法始終優於sAMOTA,AMOTA和MOTA中的基線,這是排名MOT方法的主要指標。我們假設這是因為我們的利用GNN的方法獲得了更多的判別特徵,以避免在所有3D MOT中混淆MOT關聯。

卡內基梅隆大學開源:圖神經網絡和多樣性採樣的聯合3D跟蹤和預測

表1:對KITTI和nuScenes數據集的3D MOT評估

卡內基梅隆大學開源:圖神經網絡和多樣性採樣的聯合3D跟蹤和預測

圖5:在KITTI數據集的兩個序列上的3D MOT可視化。

卡內基梅隆大學開源:圖神經網絡和多樣性採樣的聯合3D跟蹤和預測

表2:對KITTI和nuScenes數據集的軌跡預測評估。

卡內基梅隆大學開源:圖神經網絡和多樣性採樣的聯合3D跟蹤和預測

圖6:KITTI數據集上的軌跡預測可視化。

結論


作者提出了一種3D MOT和軌跡預測方法,並證明通過共享特徵學習在一個統一的框架下完成兩項任務是有益的。

另外,作者將兩種新穎的計算單元:

(1)基於GNN的特徵交互機制,這是首次引入3D MOT以改進判別式特徵學習;

(2)一種多樣性採樣技術,可提高多主體軌跡預測的採樣效率。


通過實驗,作者在3D MOT和軌跡預測上建立了新的最新性能,表明所提出的單元和聯合優化方法對我們的方法有效。


論文地址:

https://arxiv.org/pdf/2003.07847.pdf

源碼地址:

https://github.com/xinshuoweng/GNNTrkForecast


分享到:


相關文章: