深度學習中圖像語義分割基準數據集詳解技术頭條網

2019-12-24 10:17:58 sandag

前言

圖像語義分割是計算機視覺最經典的任務之一，早期的圖像分割主要有以下幾種實現方法。

基於像素分佈的分割算法： KMeans、Fuzzy C Means、 GMM、MeanShift

基於圖像拓撲結構的分割算法：分水嶺填充、輪廓邊緣分析

基於能量最大化的分割方法：圖割

但是隨著深度學習的興趣，最近幾年傳統的圖像分割方法已經很少被人提起，現在開始學習圖像分割的都是基於深度學習的各種模型實現，這其中模型的訓練需要大量的數據，所以想要了解圖像分割，首先需要了解圖像分割那些質量最好的各種數據集。這些數據集有的作為benchmark 可以很公平的比較各種語義分割模型的性能與精度，評價一個模型的好壞。

數據集分類與彙總

這些數據集的標註多數都是基於像素級別的標籤，也有的是基於點級別的標籤。語義分割針對不同的任務，數據集分為如下三類：

2D RGB圖像數據集
2.5D或者RGB-D的深度圖像數據集
純立體或者3D圖像數據集

這些數據集總的列表如下：

2D/RGB數據集

圖像語義分割多數都是針對二維的圖像進行過，所以2D 數據集是數據集類別最多的，這裡2D包括RGB彩色與灰度圖像。

PASCAL Visual Object Classes(VOC)數據集

PASCAL VOC數據集支持五種不同的視覺任務訓練包括圖像分類、對象檢測、圖像分割、行為分類、人體Layout。分割是預測圖像種每個像素屬於哪個類別的任務，VOC數據集總計有21個類別(包括背景)。分割數據集被分為訓練與測試兩個子集，分別有1464與1449張圖像。

PASCAL Context數據集

它是PASCAL VOC 2010數據集的擴展，包含10103張基於像素級別標註的訓練圖像，它包含總數540個類別，其中59個類別是常見類別，被大量標註，整個類別圖像的數據符合冪次法則分佈。

SBD (Semantic Boundaries Dataset)數據集

它的數據來自那些在PASCAL VOC中沒有被語義分割標註的圖像數據，總計有11355張圖像來自PASCAL VOC 2011，實現了兩個層級的標註分佈是種類/類別與實例對象分割，其中8498張為訓練集，2857張為測試集。

COCO(Microsoft Common Objects in Context)數據集

是微軟發佈的圖像分類、對象檢測、實例分割、圖像語義的大規模數據集，其中圖像分割部分有80分類，82783張訓練圖像、40504張驗證圖像，測試集好感80000張圖像，而且測試集本身被分為四種不同測試數據，分別應對開發測試、標準測試、評估挑戰、過擬合測試。

Cityscapes

一個大規模的城市道路與交通語義分割數據集，8大類別30種類的像素級別標註，數據集包含5000張精準標註的圖像，20000張標註圖像。數據收集來自50多個城市，前後花了幾個月的時間，對這個時間線與天氣下的場景都進行圖像採集，最初原始的數據是視頻方式，通過人工選擇視頻幀，得到最終的數據。整個數據集支持三個級別的分割性能評估：

像素級別分割
實例級別分割
全景級別分割

其中數據採集的城市地圖如下：

精準標註的圖像：

粗糙標註的圖像：

所有數據組與類別列表如下：

CamVid

是來自劍橋的道路與駕駛場景圖像分割數據集，圖像數據來自視頻幀提取，原始分辨率大小為960x720，包括32個類別。分為367張訓練圖像，100張驗證圖像，233張測試圖像。

KITTI

自動駕駛最常用的一個數據集，數據採集來自高分辨RGB、灰度立體相機，3D激光掃描等。但是數據集本身不包括標註的ground truth分割（一般人用不起），網上有很多研究機構部分標註的數據集可以下載！

Youtube-Objects

數據收集來自Youtube視頻網站，分類是PASCAL VOC其中10個子分類包括(aeroplane, bird, boat, car, cat, cow, dog, horse, motorbike, and train) ，數據集沒有被標註，但是有個好人手動標註了一些，他對視頻序列每十幀標註一幀，總計對480x360視頻數據的10167幀數據進行了標註。

Adobe’s Portrait Segmentation

它是一個人體肖像分割數據集，圖像分辨率為800x600數據來自Flickr，多數數據是來自手機前置相機拍照的生成。數據集包含1500張訓練圖像，300張測試圖像，全部被標註了，人與背景的分類，圖像標註的時候採用了半自動的標註方式。先通過程序進行人臉檢測，然後人工手動PS生成。

Materials in Context (MINC)

全場景的物體識別數據集，包含23個類別，7061張標記訓練圖像，5000張作為測試，2500張作為驗證。這些圖像主要來自OpenSur face數據集。整個數據集的圖像分辨率分佈從800x500到500x800之間。

Densely-Annotated VIdeo Segmentation (DAVIS)

該數據集主要是視頻中對象分割數據，目的是適應實時動態視頻語義分割挑戰。主要有50段視頻序列構成，其中4219幀是訓練數據，2013幀是驗證數據，所有的視頻數據都下采樣至480P大小，像素級別的對每幀數據標註四個類別，分別是人、動物、車輛、對象。視頻的另外一個特徵是每幀至少有一個前景目標對象在視頻幀中出現。