WACV2020:開源基於深度學習DeOccNet用來去除透視光場中前景遮擋


作者信息

WACV2020:開源基於深度學習DeOccNet用來去除透視光場中前景遮擋

最近,國防科技大學的一個研究小組提出了一種利用陣列相機去除前景遮擋成像的新方法


作為國內外第一個基於深度學習的去遮擋成像工作,作者提出了掩模嵌入的方法來解決訓練數據不足的問題,並建立了仿真和實測數據集,對該領域的算法進行了評價。


背景


透視前景遮擋對於許多計算機視覺應用都是有利的,例如監視中的檢測和跟蹤。但是由於前景遮擋,某些光線無法照射到傳統單視圖相機(例如,數字單鏡頭反光)的傳感器上。因此遮擋物後面的物體無法被完全觀察到並可靠地重建。


近年來,由於相機陣列可以記錄光場(LF)併為大量視點提供豐富的角度信息,因此它們得到了飛速發展。不同視點之間的補充信息有利於遮擋表面的重建,因為在某些視圖中遮擋的背景對象可以通過其他視圖看到。如圖1所示,光場去遮擋(LFDeOcc)旨在使用相機陣列捕獲的子孔徑圖像(SAI)消除前景遮擋。


已經有人提出了有關LF DeOcc的開拓性工作。使用重新聚焦方法。但是由於混合了來自遮擋物的光線和背景,因此該方法無法恢復遮擋物的乾淨表面。實際上,正確地選擇僅屬於被遮擋對象的像素是重要但具有挑戰性的。為此,現有方法通常建立不同的模型來處理LFDeOcc問題。由於現實世界中場景的高度複雜,這些帶有手工特徵提取和立體匹配技術的方法無法獲得令人滿意的性能。


近年來,深度學習已成功用於不同的LF任務,例如深度估計,圖像超分辨率,視圖合成和LF內在函數。這些網絡在許多領域都實現了最先進的性能。但是,據我們所知,由於一些問題,尚未將深度學習用於LF-DeOcc。


介紹

在本文中,作者計了一種新穎有效的範式,並提出了第一個深度學習網絡(即DeOccNet)來處理LF-DeOcc問題。具體來說,我們總結了基於深度學習的LF-DeOcc中的三個主要挑戰,並使用我們提出的範例為這些挑戰提供瞭解決方案。


  • 第一個挑戰是,與LF深度估計網絡和LF超分辨率網絡相比,LF-DeOcc網絡應使用來自被遮擋表面的儘可能多的信息,同時保持更大的接收場來覆蓋不同類型和規模的遮擋。我們通過採用編碼器-解碼器網絡對LF結構進行編碼來應對這一挑戰。我們將所有SAI沿通道維度連接起來,以充分利用被遮擋表面的信息。此外,我們使用殘差的無空間金字塔金字塔(ASPP)模塊提取多尺度特徵並擴大接收場。
  • 第二個挑戰是,與單個圖像修復網絡相比,LF-DeOcc網絡必須學習場景結構以自動識別,標記和刪除前景遮擋。我們通過將無遮擋的中心視圖SAI設置為地面真實性來應對這一挑戰,並以端到端的方式訓練我們的DeOccNet。這樣,我們的網絡就可以通過視差識別出背景中的遮擋,並自動刪除前景遮擋。
  • 第三個挑戰是,LF-DeOcc網絡面臨訓練數據不足的問題,因為無法使用前景可移動的大型LF數據集。而且,測試場景也不足以進行性能評估。我們通過提出一種將不同的遮擋掩模嵌入現有LF圖像的數據合成方法來應對這一挑戰。使用這種方法,生成了1000多個LF來訓練我們的網絡。此外,我們還開發了幾種合成的和實際的LF用於性能評估。實驗結果證明了我們的範例的有效性。與其他最先進的方法相比,我們的DeOccNet在合成和真實場景上均具有出色的性能。
WACV2020:開源基於深度學習DeOccNet用來去除透視光場中前景遮擋

圖1:使用渲染場景Syn01的LF-DeOcc的圖示。 (a)現場配置。 具有5×5塊的黃色框代表攝像機陣列。(b)被遮擋的中央視景圖像。 (c)我們的DeOccNet的結果。 (d)無咬合的地面真相。

相關工作


  • 單幅圖像修復

單一圖像修復方法旨在使用鄰域信息和全局先驗來填充圖像中的孔。單幅圖像修復的主要挑戰在於為缺失區域合成視覺逼真的和語義上合理的像素。

  • 光場去遮擋

LF-DeOcc是一個活躍的研究主題,已經進行了數十年的研究。[18]提出了一種重新聚焦的方法,即通過將每個SAI扭曲特定值,然後將扭曲的SAI沿角度尺寸平均。

WACV2020:開源基於深度學習DeOccNet用來去除透視光場中前景遮擋

圖2:我們的DeOccNet概述。 (a)總體架構。 (b)剩餘ASPP模塊的結構。

  • 光領域的深度學習

深度神經網絡已廣泛用於各種LF任務,例如圖像超分辨率,視圖合成和深度估計。與這些任務相比,用於LF-DeOcc的網絡應具有更大的接收範圍,並使用更多的被遮擋表面信息。目前,文獻中尚無有關基於深度學習的LF-DeOcc的現有工作。


方法

  • 網絡架構

作者的DeOccNet的任務是用背景像素替換遮擋像素, 為了完成此任務,自作者的網絡需要找到對應關係併合並來自SAI的補充信息。注意,前景遮擋通常具有淺深度和大差異。即遮擋像素在SAI之間總是具有非常大的位置變化。因此,我們的網絡需要具有大接收域的多尺度特徵。


殘留的ASPP模塊:在我們的網絡中,輸入體積首先由1×1卷積層處理以生成具有固定深度的特徵。


編碼器路徑:將由殘留ASPP模塊生成的特徵傳輸到編碼器路徑,在此將4個編碼器塊級聯以合併空間和角度信息。具體地,如圖3所示,每個編碼器塊包含三個級聯單元。在每個單元中,將批歸一化的特徵賦予兩條分離的路徑,以實現局部殘差學習。


WACV2020:開源基於深度學習DeOccNet用來去除透視光場中前景遮擋

圖3:編碼器和解碼器模塊的結構。 注意,編碼器和解碼器塊共享鏡像結構。 即,在每個編碼器塊的第三單元中使用跨步卷積,而在每個解碼器塊的第一單元中使用反捲積。


解碼器路徑:經過瓶頸後,將通過解碼器路徑對特徵進行解碼。注意,解碼器塊具有作為編碼器塊的鏡像結構。


  • 遮罩嵌入,用於訓練數據綜合

重要的是要提供足夠的數據來訓練我們的DeOccNet, 儘管可以通過捕獲帶有/不帶有前景遮擋的真實場景來獲取具有可移動遮擋的LF,或者通過使用3dsMax2和Blender3之類的軟件渲染合成場景來獲取LF,但是這些方法的計算強度很大,因此,重要的是設計一種有效的方法來生成大量數據以進行網絡訓練。在本文中,我們提出了“掩膜嵌入”,一種訓練數據綜合方法,用於合成具有可移動前景遮擋的低頻信號。圖4顯示了我們的掩膜嵌入方法。


如圖4(a)所示,我們使用柳葉,網格,柵欄和剪紙等標籤從Internet手動收集了80張蒙版圖像。


WACV2020:開源基於深度學習DeOccNet用來去除透視光場中前景遮擋

圖4:我們的遮罩嵌入方法的示意圖。 (a)我們的方法中使用的口罩。 請注意,執行裁剪和縮放以實現更好的可視化。 (b)我們的掩膜嵌入方法。 在此,以3×3 LF為例。


值得注意的是,場景中的前景和背景是相對的概念。也就是說,如圖5所示,在多遮擋情況下,某些遮擋也可以視為背景對象。


WACV2020:開源基於深度學習DeOccNet用來去除透視光場中前景遮擋

圖5:LF-DeOcc中的多遮擋情況。 (a)閉塞的中央視野SAI。 (b)我們的DeOccNet的結果是在較淺的深度((a)中的藍色虛線)處糾正了輸入。 最前面的樹被視為前景遮擋。 (c)我們的DeOccNet的結果得到了更深層的糾正((a)中的紅色虛線)。 三棵前樹被視為前景遮擋。 因此,我們的DeOccNet可以產生不同的結果,而相同的輸入會在不同的深度值處進行校正。

因此,對於LFDeOcc,應將訓練和測試場景都校正為特定深度。在本文中,我們通過相應地裁剪每個SAI進行校正,以使遮擋具有正視差值,而背景具有負視差值。這樣,我們的DeOccNet只需刪除具有正視差值的對象即可有效地實現LF-DeOcc。最後,我們以112的步幅將遮擋的SAI裁剪為224×224像素塊,並進行了2倍上採樣以進行數據增強。同時,對無遮擋的中心視圖SAI進行了裁剪和相應的上採樣以生成地面真相。


實驗


  • 測試場景

真實世界的場景。我們在公開的CD場景中跟蹤並測試了我們的方法。原始CD場景由分佈在5×21網格上的105個視圖組成。我們選擇了中央5×15的視圖進行績效評估。Groundtruth圖像由第二次捕獲提供,並且去除了遮擋。此外,我們使用安裝在龍門架上的移動Leica Q相機(帶有F = 10,f = 28 mm鏡頭)拍攝了多個真實場景。在[23,29]中提出,在靜態情況下,掃描方案等效於相機陣列的單次拍攝。我們將攝影機移至基線為3 cm的5×5網格上的25個位置。使用中的方法對捕獲的圖像進行校準。


  • 合成場景

由於實際測試場景的數量很少,因此我們渲染了4個具有可移動前景遮擋的合成場景,以供進一步評估。我們合成場景中的所有元素都是從Internet上收集的,並且參數(例如照明,深度範圍)已進行了調整,以更好地反映真實場景。每個場景的角分辨率設置為5×5,而基線和遮擋範圍在不同場景中有所不同。還提供了無遮擋的中心視角SAI進行定量評估。

WACV2020:開源基於深度學習DeOccNet用來去除透視光場中前景遮擋

圖6:在CD場景中獲得的定性結果[16](遮擋率為40.2%)。 (a)被遮擋的中央視野SAI。 (b)-(e)通過不同方法獲得的比較結果。 (f)我們的DeOccNet使用75個相同的中心視圖SAI作為輸入獲得的結果(在第4.4節中討論)。 (g)我們的結果。 (h)無遮擋的中央視野SAI。


WACV2020:開源基於深度學習DeOccNet用來去除透視光場中前景遮擋

圖7:在我們自行開發的真實場景中獲得的定性結果。 請注意,這三個場景的遮擋率分別為61.8%,57.7%和39.1%。


可以得出,DeOccNet確實是利用disparity的差異來解析場景結構,並利用視角間的互補信息實現遮擋物的去除,這與單幀圖像修復的機制有所區別。


論文中採用L1誤差、峰值信噪比PSNR以及結構相似度SSIM進行數值評價,結果如下表所示。

WACV2020:開源基於深度學習DeOccNet用來去除透視光場中前景遮擋

表1:通過DeOccNet的不同方法和不同設計選擇獲得的定量結果。 請注意,對於l1誤差,較小的分數表示較好的性能,對於PSNR和SSIM,較高的分數表示較好的性能。

結論


在本文中,作者提出了DeOccNet,這是第一個基於深度學習的LF-DeOcc方法。我們將遮罩嵌入現有的LF中以生成大型訓練數據集。在合成和真實場景上進行的實驗表明,我們的DeOccNet可以通過視差差異自動刪除前景遮擋,並且與現有方法相比,性能更高。


論文地址:

https://arxiv.org/pdf/1912.04459.pdf

源碼地址:

https://github.com/YingqianWang/DeOccNet


分享到:


相關文章: