一種基於卷積神經網絡的駕駛員和安全帶檢測的靈活體系結構

ICCV 2019 | 一種基於卷積神經網絡的駕駛員和安全帶檢測的靈活體系結構

作者 | BBuf
單位 | 北京鼎漢技術有限公司 算法工程師(CV)
編輯 | 唐裡

論文發表於 ICCV2019。

論文標題:NADS-Net: A Nimble Architecture for Driver and Seat Belt Detection via Convolutional Neural Networks

論文地址:https://arxiv.org/abs/1910.03695

在本文中,我們提出了一種新的卷積神經網絡(CNN)結構,用於二維駕駛員/乘客姿態估計和安全帶檢測。與其他通用的姿態估計算法相比,新的結構更加靈活,因此更適合車內檢測任務。這種新的結構稱為NADS-Net,網絡在一個新的數據集上得到驗證,該數據集包含為本研究收集的50個駕駛會話中的100個駕駛員的視頻片段。還分析了不同人口學、外觀和光照條件下的檢測性能。本文的研究結果可為自主駕駛研究界和汽車工業提供有意義的見解,為今後的算法開發和數據採集提供參考。

一、研究背景

全球交通事故報告顯示大多數交通事故時由於駕駛員分心引起的。分心駕駛的例子包括使用手機,和乘客對話,喝飲料等與駕駛無關的行為。瞌睡,疲勞,服藥等其他一些生理問題也可能導致危及生命的情況。

另一個重大的駕駛安全隱患是不當使用安全帶。這可能導致嚴重的人身傷害和死亡。根據美國國家公路交通安全管理局(NHTSA)的數據,2016年有10428名未系安全帶的駕駛員和乘客在道路上葬生。

因此,車載監控系統(IVMS)迅速成為消費類車輛的標準技術,因為它可以通過提醒分心的駕駛員和自適應調整安全機制,在預防和減少交通事故的發生中發揮關鍵作用。

此外,在即將到來的自動駕駛時代,IVMS技術更加關鍵。例如,當車輛系統在自動駕駛模式下檢測到異常時,IVMS可以向駕駛員報警,以便駕駛員可以在系統出現故障時接管車輛的控制權。對於IVMS,基於視覺的傳感技術是其核心。在IVMS系統中檢測並跟蹤了來自臉部,眼睛,頭姿勢,手勢和身體姿勢的視覺信息。基於視覺傳感技術的目標是識別汽車中人類的各種狀態,例如前排乘客的身體姿態以及是否正確繫好安全帶,這也是本文的主要目標。

具體來說,本文提出了一種新的卷積神經網絡架構用於駕駛員和乘客的二維姿態估計和安全帶檢測。NADS-Net以特徵金字塔網絡FPN作為骨幹網絡,後面接了關鍵點檢測頭,親和力場檢測頭和安全帶檢測頭。和SOAT算法[1]相比,該網絡表現出了相似的精度,同時更加簡潔高效。

二、相關工作

1.人體姿態估計

在自動駕駛領域中,人體姿態估計算法因其不需要任何傳感儀器就能捕獲人的運動姿態的能力得到了越來越多的關注。現在人體姿態估計方法大概可以分為自上而下和自下而上的方法。

自上而下的方法

自上而下的方法首先檢測人的邊界框。然後將每個邊界框分解為身體關鍵點和骨骼。[25]使用Faster RCNN首先預測人的邊界框,然後利用殘差網絡預測每個框中的熱力圖和偏移矢量以定位關鍵點。何凱明等提出了Mask-RCNN,它在Faster-RCNN的邊界框檢測頭進行擴展,使它支持實例分割和關鍵點檢測。此外,他們將骨幹網絡改成了FPN,使得準確率和速度都得到了提升。Chen等提出由兩個階段組成的級聯金字塔網絡(CPN):GlobalNet和RefineNet。CPN首先檢測一個人的邊界框,然後將裁剪的邊界框傳遞到GlobalNet,在其中使用FPN主幹網絡預測關鍵點。然後,RefineNet完善GlobalNet預測的關鍵點,進而實現更精確的遮擋或不可見關鍵點檢測。

自下而上的方法

自下而上的方法首先檢測所有的人體關鍵點,然後解析它們的連接和成員關係以構造人的實例。DeepCut是自下而上方法的一個例子,該方法可以檢測身體部位以及每個身體部位之間的關係。然後將這些輸出用於迴歸檢測到的關鍵點的位置偏移並連接骨架實例。Newell等介紹了一種可以同時輸出關鍵點位置和逐像素嵌入的方法,將關鍵點檢測結果自動分組為單獨的姿勢。Cao[1]等提出了部分親和力字段(PAF),該字段包含指示如何連接各個關鍵點的矢量字段。他們使用PAF預測頭增強了卷積姿態機算法,並使用了二分圖匹配算法貪心的連接骨架實例。

2.安全帶

基於計算機視覺的安全帶檢測研究一直在進行。Zhou[39]等將邊緣檢測算法,顯著梯度圖和徑向基函數組合到一個統一的網絡結構中,以判斷圖像中是否存在安全帶。Zhou[38]等使用帶BN層的AlexNet來識別安全帶。Elihos等提出了一種方法,該方法首先使用SSD裁剪乘客區域,然後用CNN檢測是否使用了安全帶。本文提出的安全帶檢測算法試圖在檢測結果中增加更多的細粒度,以便檢測結果不僅能提供安全帶是否使用的信息,而且還可以通過安全帶相對於檢測到的身體的相對位置來進一步反饋。

三、方法

在本文中,我們提出了新的NADS-Net結構,可以同時進行姿態估計和安全帶檢測。

1.問題概述

通用的姿態估計問題都是在公共數據集例如MS COCO,PoseTrack上進行訓練和驗證的。但是這些數據一般是在白天和明亮的室內拍攝的,且由於車輛有夜間紅外圖像,所以姿態估計算法在夜間紅外圖像上表現也值得懷疑。且關鍵點是駕駛員和乘客在車內的姿勢非常有限,且背景較為簡單,人的數量也少,所以較小的淺層模型就可以滿足車內駕駛員和乘客的姿態估計。

2.數據集

這項研究的主要挑戰之一是缺乏適當的數據集。上面提到,一些人體姿態的公開數據集是不適合車輛監控環境的。特別的,我們需要安全帶標註樣本,人口統計信息,夜間紅外圖像,在駕駛時處於動態光照變化下的人體姿態和手勢。

數據收集

我們收集了沃爾沃XC90研究車輛中駕駛員和乘客的視頻。這次收集歷時7個月,共有100名受試著隨機分配到一個汽車駕駛會話中。要求受試者進行某些指定的行為,如玩手機,打哈欠,把手伸出窗戶,喝酒等等。我們給汽車配備了紅外燈和兩個攝像頭。其中一個攝像頭安裝臺後視鏡下,另外一個安裝在中央媒體控制板上。紅外燈安裝在儀表盤上和遮陽板後面。Figure2展示了設備的安裝方式。

ICCV 2019 | 一种基于卷积神经网络的驾驶员和安全带检测的灵活体系结构

Figure 2

統計信息

除了駕駛視頻之外,我們還收集了如年齡,性別,種族等人口統計信息,這些總結在Table1中。需要注意的是,所有的駕駛場景均由一名研究人員陪同。因此,視頻中包含了一些重複出現的研究人員。為了最大程度的減少數據的潛在偏差,研究人員在整個駕駛過程中輪流陪同。根據安全要求,研究人員必須在車輛行駛時坐在前排乘客座椅上,但是當車輛在停車時,他們儘可能地移動到不同的座椅位置,以最大程度地減少數據偏差。此外,要求研究人員每次穿不同的衣服和配件。最後,駕駛路線包括鄉村道路,市區和高速公路,以實現背景和照明的多樣化。

ICCV 2019 | 一种基于卷积神经网络的驾驶员和安全带检测的灵活体系结构

數據標註

對於剪輯視頻的每張圖像,將所有可見的安全帶部分做分割標籤,並對可見的身體關鍵點的座標(x, y)進行標記。這項研究的研究人員在每次標註人員提交作業時都進行了最終檢查,以確保數據的質量。標註結果示例如Figure1所示:

ICCV 2019 | 一种基于卷积神经网络的驾驶员和安全带检测的灵活体系结构

Figure 1

3.模型

ICCV 2019 | 一种基于卷积神经网络的驾驶员和安全带检测的灵活体系结构

Figure 3

如Figure3所示,我們的網絡模型有三個頭,用來生成熱力圖,PAF圖和安全帶分割,其中骨幹網絡是特徵金字塔網絡。NADS-Net的骨幹網絡由ResNet-50組成,為後面的檢測分支產生金字塔特徵。ResNet-50的結構可以產生原始分辨率1/4,1/8,1/16,1/32的特徵圖。例如對於我們的輸入分辨率384*384,ResNet-50骨骼網絡產生4層特徵金字塔,每層大小分別為96*96,48*48,24*24,12*12。同時特徵圖的通道數分別為256,512,1024,2048。然後進一步使用1*1卷積將通道數都壓縮到256。最後縮減後的特徵金字塔再進行兩次3*3卷積和上採樣(特徵圖大小為96的不用上採樣了),以生成一個96*96*512的特徵圖用於三個頭完成身體關鍵點和安全帶檢測。

每個檢測分支使用兩個3*3卷積核1*1卷積來預測逐像素概率分佈。對於關鍵點檢測頭,像素的概率表示該點為關鍵點的置信度。由於我們對背景遮擋的關節點也有興趣,所以關鍵點頭會產生10個大小為96*96的特定類概率圖,每個概率圖都與我們感興趣的9個關節點以及背景有關。對於PAF頭,我們產生尺寸為96*96的矢量場,該矢量場編碼了身體關節的成對信息。最後安全帶頭產生大小為96*96的概率圖,代表每個像素為安全帶的概率,然後根據閾值產生安全帶分割結果。

四、結果

ICCV 2019 | 一种基于卷积神经网络的驾驶员和安全带检测的灵活体系结构

Figure 4

對於安全帶檢測任務,沒有可用的基線模型進行比較。所以,我們只報告模型的敏感性,特異性,準確率,F1得分和交叉結合(IOU)。

Table2展示了我們的NADS-Net和[1]的方法在姿態估計準確率上的對比結果。

ICCV 2019 | 一种基于卷积神经网络的驾驶员和安全带检测的灵活体系结构

Table3展示了安全帶檢測結果。

ICCV 2019 | 一种基于卷积神经网络的驾驶员和安全带检测的灵活体系结构

從實驗結果來看,相比於[1]的SOAT結果,NADS-Net的準確率更高。且我們在Core-i7 CPU,1080Ti主機進行了速度測試,我們前向推理速度為18fps,而基準模型是12fps,且我們的模型參數量比基準模型減少了25%。

五、結論

在本文中,我們提出了一種新的CNN體系結構,稱為NADS-Net,用於駕駛員和乘客的姿態估計以及車輛中的安全帶檢測。在估計人體姿態和安全帶檢測時,NADS-Net能夠與SOAT工作[1]擁有相似的準確度,同時減少了計算參數和擁有更快的推理速度。我們細分了性能,並在不同方面提供了深入的分析,包括性別,種族,衣服和光照條件。這些結果可能會為將來的學術研究和工業產品開發提供有用的參考。

[1] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multiperson 2D pose estimation using part affinity fields. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7291–7299, 2017.

ICCV 2019 | 一种基于卷积神经网络的驾驶员和安全带检测的灵活体系结构ICCV 2019 | 一种基于卷积神经网络的驾驶员和安全带检测的灵活体系结构"


分享到:


相關文章: