真能“穿牆識人”,MIT人體姿態估計系統創歷史最高精度!

真能“穿牆識人”,MIT人體姿態估計系統創歷史最高精度!


新智元報道

【新智元導讀】MIT計算機與人工智能實驗室的研究人員開發了一種基於Wi-Fi的人體姿態估計系統,用AI教會Wi-Fi“穿牆透視”,隔著牆也能進行精確的人體姿態估計。

真能“穿牆識人”,MIT人體姿態估計系統創歷史最高精度!

人體姿態估計是計算機視覺研究中的一個重要課題,在生活中也有著廣泛的應用場景,比如安防、自動駕駛、智能家居等等。不過,在實際應用中,基於視覺或者說基於可見光的人體姿態估計有一個重大的侷限,那就是障礙物遮擋——光線無法穿透書櫃、牆壁等不透明的物體,如果身體被遮擋就無法去估計。

在一項最新的研究中,MIT人工智能實驗室(MIT CSAIL)團隊,設計了一個基於Wi-Fi的人體姿態估計系統,能夠穿透牆壁進行精確的人體姿態估計,取得了Wi-Fi人體姿態識別的歷史最高精度。這項工作大大拓寬了人體姿態估計系統的適用範圍,有很強的應用價值。

相關的研究論文已經被CVPR 2018接收,作者是Dina Katabi教授和她的博士生趙明民(論文第一作者)、MIT教授Antonio Torralba、博士後Mohammad Abu Alsheikh、博士生黎天鴻、田永龍和趙行。他們將CVPR 2018上展示這項工作。

真能“穿牆識人”,MIT人體姿態估計系統創歷史最高精度!

穿牆透視,用Wi-Fi識別人體姿態

人體姿態估計,就是將一幅圖像或一段視頻中,人的頭、手、軀幹和腿部關節點位置恢復出來,做出一個由關節點構成的骨架(見下圖)。

真能“穿牆識人”,MIT人體姿態估計系統創歷史最高精度!

MIT的WiFi人體姿態估計系統,在人走到牆後時也能提取關鍵點,生成人體姿態關節點骨架。最上面一行是RGB圖,中間是置信點圖,最下面一行就是關節點骨架。

當有遮擋物存在時,過去常用的方法是推斷,也即設計算法根據看得見的部分去推測被遮擋的身體部分的情況。但是,由於人體是在不斷在運動的,推斷很容易出錯。此外,當一個人完全被遮擋,比如說走到一堵牆的後邊時,這種方法就行不通了。

MIT CSAIL的團隊提出了一種完全不同的解決方案。他們的出發點很簡單:如果可見光會被這些障礙物阻擋,那麼就改用其他信號。無線信號,比如Wi-Fi,就能穿透牆壁,而且Wi-Fi還有一個好處是會被人體反射,非常適合用來進行“穿牆”人體追蹤。

但是,過去的Wi-Fi系統雖然能穿牆找到人的位置,或者生成一個大致的輪廓,結果還是比較粗糙的,遠遠沒有達到視覺人體姿態估計系統的精細程度,沒有對人體關節部位進行準確定位。

為了解決無線信號精度低的問題,這一次研究人員使用了“AI教學”的方法。他們訓練了一個神經網絡,讓這個神經網絡從無線信號中學習並估計人體姿態。

AI教學,青出於藍而勝於藍

不過,這裡又遇到了一個難點,就是如何為這個神經網絡提供訓練樣本。基於圖片或視頻的人體姿態識別系統,訓練樣本可以由人手工來標註。但在訓練基於無線信號的神經網絡時,這個方法就行不通了,因為人看不見Wi-Fi信號,也無法從無線信號中看出人的姿態,更無從教會神經網絡了。

“我們的解決方法是跨形態的監督學習。”研究論文的第一作者、MIT博士生趙明民告訴新智元:“這裡面的想法也很簡單,就是同時採集圖片和無線信號,並使用基於圖片的神經網絡來訓練基於無線信號的神經網絡。”

研究人員使用一個基於圖片的神經網絡來做“老師”,另一個基於無線信號的神經網絡來當“學生”。老師看圖片知道里面的人體姿態然後告訴學生,學生則需要學會從無線信號中也找到同樣的結果。通過這樣的方法訓練出來的“學生”神經網絡,就具備了利用無線信號識別人體姿態的能力。

很有趣一點,“學生”神經網絡不僅學會“老師”教他的內容,還學到了“老師”都無法做到的事情,可謂青出於藍而勝於藍:雖然“老師”示範的都是沒有障礙物的情況,基於無線信號的“學生”也學會了在有障礙物的情況下估計人體姿態,甚至是穿牆透視。

他們新提出的這個系統,名叫RF-Pose,可以解析無線信號並從中提取出精確的2D人體姿勢,即使有牆壁遮擋也一樣。

創下Wi-Fi人體姿態識別史上最高精度

RF-Pose展現出了十分優秀的性能:能夠穿牆透視,用於光線昏暗的場景,即使在沒有遮擋物的情況下,它的精度也與當前性能最優的基於視覺的系統相當。

真能“穿牆識人”,MIT人體姿態估計系統創歷史最高精度!

RF-Pose超越了當前最好的基於視覺的人體姿態估計系統:第一行是RGB圖像;第二行是RF-Pose的結果,這是僅從無線信號中學習到的人體骨架;第三行是OpenPose的結果,這是當前性能最好的基於視覺的人體姿態估計系統。在有遮擋、光線昏暗等場景中,RF-Pose性能明顯更優。

真能“穿牆識人”,MIT人體姿態估計系統創歷史最高精度!

RF-Pose的結構示意:由學生和老師兩個神經網絡構成。上面是“老師”神經網絡,提供訓練監督,下面是“學生”神經網絡,僅使用RF熱圖提取人體姿勢。在訓練過程中,系統使用同步的無線信號和視覺輸入,從視覺流中提取姿態信息,並使用這些信息來指導訓練過程。訓練完畢後,網絡只需使用無線信號進行姿態估計。其結果是,該系統只需利用無線信號來估計人體姿勢,而不需要人類標註作為監督。

除了跨形態監督之外,RF-Pose的設計還考慮了RF信號的內在特性,包括低空間分辨率、人體在穿過牆壁時對RF頻率的鏡面反射,以及RF信號與監控視頻流在表示和透視上的差異。

研究人員利用在校園周圍公共環境中收集的數據來訓練和測試RF-Pose。這個數據集包含數百個不同的人進行不同的室內活動:走路、坐、走樓梯、等電梯、開門、和朋友聊天等。他們在不同的環境下進行測試和訓練,以確保網絡能夠推廣到新的場景。

此外,實驗結果還表明,從RF信號中學習到的人體骨架,能夠準確地反映一個人在移動時的特徵。研究人員進行了一個實驗,他們訓練了一個CNN分類器,讓這個分類器基於RF骨架識別人群中的某個人,發現準確率可以達到83%以上。

在安防領域,受障礙物的影響,很多時候需要在各個角度安裝很多設備,這時候無線設備的穿牆能力就能發揮用處。

無人駕駛也可以考慮結合視覺和無線信號來做感知。無線信號能更好的穿透霧等障礙,能在極端天氣和光照條件下提供魯棒性。無線信號也可以提前幫助汽車判斷障礙物後面是否有行人。

研究人員表示,未來他們計劃進一步拓展這個系統,從2D到3D,將無線感知與視覺相結合,提供更豐富的信息。

1. paper: http://openaccess.thecvf.com/content_cvpr_2018/CameraReady/2406.pdf

2. project website: http://rfpose.csail.mit.edu/

3. Mingmin Zhao: http://people.csail.mit.edu/mingmin/

4. Dina Katabi: http://people.csail.mit.edu/dina/

5. Antonio Torralba: http://web.mit.edu/torralba/www/


分享到:


相關文章: