夜間場景缺數據，如何進行語義分割？浙大提出基於GAN的高魯棒夜間語義分割框架科技頭條網

作者 | BBuf
單位 | 北京鼎漢技術有限公司算法工程師(CV)
編輯 | 唐裡

浙大提出一種新的方法，通過將GAN和SOAT分割框架結合，實現對夜間圖像也具有魯棒的分割效果。

論文發表於2019年，地址為：https://arxiv.org/abs/1908.05868

近年來，藉助深度卷積神經網絡(CNN)，智能駕駛導航和安全監控取得了長足的進步。語義分割作為一種最先進的感知方法，在自動駕駛和安全監控中具有廣泛的應用前景。

當前，語義分割在標準場景（例如具有良好光照條件的白天場景）中表現出了高效的性能。但是，面對諸如夜間之類不利環境，語義分割會大大降低其準確性。造成此問題的主要原因之一是缺乏足夠的夜間場景分割數據集。

在本文中，我們提出了一個使用生成對抗網絡(GAN)來緩解將語義分割模型應用於夜間環境時的準確性下降。為了聯繫白天和夜晚的圖像域，我們進行了關鍵的觀察，與夜間環境下的數據相比，已經存在大量標準條件下的分割數據集如BBD，我們收集的ZJU等。

我們提出的基於GAN的夜間語義分割框架包括兩種方法。在第一種方法中，GAN用於將夜間圖像轉換為白天，因此可以使用已經在白天數據集上訓練的魯棒模型來執行語義分割。第二種方法是，我們使用GAN將數據集中的白天圖像轉換為夜間圖像，同時標籤不變。所以，我們可以利用GAN合成夜間數據集，以產生在夜間條件下魯棒性很好的模型。

在我們的實驗中，第二種方法顯著提高了模型在夜間圖像上的分割性能，這可以使用IOU和ACC來評價。實驗表明，性能還會隨著數據集中合成夜間圖像的比例變化而變化，其中最佳的比例對應於在白天和夜晚性能最高的模型。我們提出的方法不僅有助於智能車輛視覺感知的優化，而且可以應用於各種導航輔助系統。

1. 研究背景

諸如目標監測和語義分割之類的視覺任務始終是安全監控和自動駕駛的關鍵點。語義分割可以通過單個相機拍攝來完成不同的檢測，使場景感知擺脫了複雜的多傳感器融合。一些最新的方法如PSPNet,RefineNet，DeepLab和AcNet等以非常高的準確率執行語義分割任務。為了將語義分割應用於自動駕駛和安全監控，我們在先前的工作中提出了一個ERF-PSPNet[1]，這是一種高精度的實時語義分割方法。

所有的這些感知算法均設計為可以在光照條件良好的白天拍攝的圖像上運行。然而，戶外應用很難逃脫惡劣的天氣和照明條件。基於語義分割的計算機視覺系統尚未得到廣泛應用的原因之一就是它不能處理環境不利條件。例如，基於可見光相機的語義分割模型在夜間表現不理想，原因就是在極弱的照度下，目標的結構，紋理和顏色特徵會急劇變化。這些特徵可能由於缺乏光照而消失，或者被幹擾。因此，如何增強語義分割模型的魯棒性成為計算機視覺領域的重要問題。在本文工作中，我們著重提高夜間語義分割的性能。

在本文中，我們提出了一個主框架如圖Figure1所示，以克服語義分割模型從白天到晚上的精度急劇下降問題。受生成對抗網絡的思想啟發，夜間圖像在前向推理過程中被轉換為白天域的圖像。換句話說，我們通過將部分白天圖像轉換為夜間圖像來擴充原始的大規模語義分割數據集。在這些實驗中，我們證明此方法提高了語義分割模型的魯棒性。此外，我們還使用多模式立體視覺傳感器來採集了浙江大學玉泉校區白天和夜晚的圖像製作了數據集ZJU，設備被安放在一個儀表車上，如Figure2所示。

Figure 1

Figure 2

2. 相關工作

2.1 道路場景的語義理解

語義分割技術對於理解圖像內容和感知目標位置很重要，並且該技術在自動駕駛領域也很關鍵。當前，大多數語義分割SOAT工作都是基於全卷積的端到端網絡。受到SegNet的啟發，語義分割模型通常採用編解碼結構。編碼器是經過訓練可以對輸入圖像進行分類的CNN，解碼器用於將編碼器的輸出上採樣到和原始圖像相同的大小。此外，有更多有效的語義分割網絡被提出，我們的工作基於ERF-PSPNet，這是一種為導航輔助系統設計的最新語義分割網絡。

2.2 模型適應

通常，CNN僅從訓練數據域中學習特徵，並且在不同的領域中可能表現會差很多。這也是為什麼在白天訓練的語義分割模型在夜間準確率會嚴重下降的原因。為了提高卷積神經網絡的泛化能力，提出很多方法。最常見的是，使用諸如隨機裁剪，隨機旋轉和翻轉之類的數據增強技術去適應陌生域。在[29],[30]中已對合成數據的有效使用進行了初步的探索。[31]提出了另一種基於域適應的方法，用於將語義分割模型從合成圖像適應到實際環境。[32,33]還提出了類似的方法來解決魯棒的模糊場景解析。

2.3 圖像風格轉換

自動GoodFellow提出GAN之後，GAN就成為了最有前途的圖像風格化方法。形式上，GAN同時包含兩個模型：捕獲關鍵分佈的生成器G和估計樣本來自訓練數集而不是生成器的鑑別器D。儘管像Pix2Pix這樣在風格轉換上最先進的工作表現出眾，但兩個域中的訓練數據都必須預先格式化為單個X/Y圖像對，以保持緊密的像素相關性。最近提出的CycleGAN可以執行完整的轉換過程，並省掉每張圖像配對的過程，這很適合我們執行白天和夜晚的圖像風格轉換。

3. 方法

在我們的工作中提出了兩種方法來縮小語義分割中白天和夜間圖像之間的差距。這兩種方法分別為將白天域圖像轉換為夜間域圖像和夜間域圖像轉換為白天域圖像。Figure1展示了我們的框架。我們訓練一個CycleGAN來執行跨域轉換。在第一種方法中，我們將夜間圖像轉換為白天圖像，然後在白天圖像上訓練ERF-PSPNet。在第二種方法中，CycleGAN將訓練集的部分白天圖像轉換為夜間圖像，以擴展數據集的域覆蓋範圍。最後，我們用調整後的具有一定百分比的夜間圖像的訓練數據訓練ERF-PSPNet，達到提高夜間語義分割模型性能的目的。

3.1 訓練CycleGAN進行晝夜跨域轉換

CycleGAN是一種在沒有配對示例的情況下學習將圖像從原域轉換為目標域的方法，這符合我們的需求。CycleGAN包含兩組GAN，每一組GAN又包含一個生成器和鑑別器。生成器和鑑別器進行圖像風格轉換，將圖像從域X轉換到域Y或者從域Y轉換到域X。F和G代表了兩個GAN，他們生成的內容分別為當前域圖像的對立域圖像。我們同時訓練了G和F，並增加了循環一致性約束：

這種損失使未配對的圖像風格轉換成為可能。在我們的工作中，選取了BBD100K數據集6000張白天圖像和6000張夜間圖像作為兩個圖像域來訓練CycleGAN。限於GPU的內存，我們將圖像大小調整為480*270以訓練CycleGAN。通過這種方式，我們獲得了晝夜轉換器。

3.2 在推理期間將圖像轉換為白天域

第一種選擇是在推理的時候將夜間圖像轉換為白天圖像。更具體的說，將攝像機獲取的夜間圖像用CycleGAN轉換為合成的白天圖像，這是語義分割更擅長處理的域。該方法不需要再次訓練語義分割模型。換句話說，該方法的優勢在於我們可以利用經過訓練的ERF-PSPNet中的原始權重，該權重被證明在大多數數據集和實際場景中都是穩定的。此外，晝夜轉換和分割過程是分開的，這使得調整更加容易。

但這種方法的缺點在於CycleGAN轉換一張480*270的圖像，前向推理花費的時間接近於1秒，這太慢了，並且語義分割系統也失去了實時性能。另外，CycleGAN合成的圖像可能有一定偏差，例如可能將遙遠的建築物轉換為樹木。

3.3 產生夜間圖像擴展數據集

第二種選擇是將帶有語義分割標籤的BBD訓練集中的部分白天圖像轉換為夜間圖像。然後將帶有合成夜間圖像的數據集用來訓練ERF-PSPNet損失函數。這個想法來自於缺乏精確分割的夜間數據集標籤。

此方法的優點是對於訓練模型，在推理過程中不會引入額外的計算。因此，ERF-PSPNet可以保留其實時的屬性。在我們的實驗中，我們探索了合成夜間圖像的比例如何影響語義分割模型的準確性。此方法的缺點是重新訓練模型的過程比較耗時，並且該模型可能並不總是對所有環境都具有魯棒性。另外，我們必須將BBD100K數據集中的圖像大小調整為480*270以訓練GAN。這樣GAN只能產生大小為480*270的圖像。因此，我們必須將合成圖像上採樣到1280*720，然後再輸入分割模型。這樣的操作不可避免的會影響最終預測結果的準確性。

4. 結果

本文首先介紹了BDD數據集(BDD100K和BDD10K)，ZJU數據集和Nighttime Driving test數據集。他們的圖像分辨率，白天以及夜晚圖像數量，標註信息如Table1所示：

Table 1

我們選擇了BDD100K數據集中的6000張白天和黑夜圖像訓練CycleGAN。對於ERF-PSPNet，編碼器部分在ImageNet上進行了預訓練，所以ERF-PSPNet所有的訓練任務都在解碼器部分的訓練中。第一種方法是在BDD10K上訓練ERF-PSPNet。推理期間夜間圖像用CycleGAN即時轉換為白天域。在第二種方法中，使用BDD10K訓練集中不同比例的圖像來訓練ERF-PSPNet。為了定量驗證我們的方法，在BDD10K的驗證集中使用32個帶有分段註釋的夜間圖像和50個在Nighttime Driving test數據集中具有精確分段註釋的夜間圖像。Nighttime Driving test數據集中的圖像樣式類似於BDD10K，這使得在其上應用BDD訓練的語義分割模型是合理的。最終，模型的實驗表現如Table2所示：

Table 2

可以看到，使用本文的方法，模型在夜間圖像的準確率得到了較大的提升。此外，本文還探索了第一種方法在擁有不同比例夜間圖像的數據集上表現，如Figure7所示。

Figure 7

我們可以看到使用2000張合成的夜間圖像的訓練集得到的效果是最好的。然後在5000的時候曲線達到另外一個峰值，這個原因可能是5000是2000的對稱數(總數是7000),並且該模型以互補的方式從白天圖像中學習紋理信息，從夜晚圖像中學習光照信息，但是此時白天的性能已經降低到了一個較低的水平。當所有圖像均為夜間圖像時，IOU甚至低於30%，這是因為合成圖像中的紋理不等同於真實圖像中的紋理。綜上所述，使用2000張合成的夜間圖像和5000張真實白天圖像的訓練集得到的效果是最好的。

5. 結論

在本文中，我們研究了夜間場景的圖像語義分割問題。為了提高性能，通過CycleGAN訓練雙向晝夜轉換器，提出了兩種方法。在第一方法中，推理過程將夜間圖像即時轉換為白天圖像，作為預處理步驟。在第二種方法中，將訓練集的圖像通過CycleGAN部分轉換為夜間合成圖像，從而提高了分割模型的魯棒性。我們的實驗在三個數據集上進行了測試，並證明了該方法的有效性。總而言之，我們的方法顯著改善了夜間圖像語義分割模型的性能，從而使諸如ERF-PSPNet之類的SOAT網絡在夜間擁有較好的魯棒性。

[1] Yang, K., Bergasa, L. M., Romera, E., Cheng, R., Chen, T., and Wang, K., “Unifying terrain awareness through real-time semantic segmentation,” in [2018 IEEE Intelligent Vehicles Symposium (IV)], 1033–1038, IEEE (June 2018).

[29] Sadat Saleh, F., Sadegh Aliakbarian, M., Salzmann, M., Petersson, L., and Alvarez, J. M., “Eﬀective use of synthetic data for urban scene semantic segmentation,” in [Proceedings of the European Conference on Computer Vision (ECCV)], 84–100 (2018).

[30] Xu, Y., Wang, K., Yang, K., Sun, D., and Fu, J., “Semantic segmentation of panoramic images using a synthetic dataset,” in [Artiﬁcial Intelligence and Machine Learning in Defense Applications], International Society for Optics and Photonics (2019).

[31] Sankaranarayanan, S., Balaji, Y., Jain, A., Lim, S. N., and Chellappa, R., “Learning from synthetic data: Addressing domain shift for semantic segmentation,” in [2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition], 3752–3761, IEEE (2018).

[32] Dai, D. and Van Gool, L., “Dark model adaptation: Semantic image segmentation from daytime to nighttime,” in [2018 21st International Conference on Intelligent Transportation Systems (ITSC)], 3819–3824, IEEE (2018).

[33] Sakaridis, C., Dai, D., and Van Gool, L., “Semantic nighttime image segmentation with synthetic stylized data, gradual adaptation and uncertainty-aware evaluation,” arXiv preprint arXiv:1901.05946 (2019).