論文:A Differential Approach for Gaze Estimation with Calibration
視覺估計Gaze Estimation:
根據人的圖片計算人眼睛的視角,估計人觀察的方向,應用,可以應用眼睛控制的遊戲
一般流程:攝像機可以用照片的方式得到人的面部圖片,由於人臉的方向不同,故先利用3D攝像機矯正人臉得到正面的人臉圖片,因此人的視線則變為上下左右四個方向,獲取人眼視角方向後,結合人的頭部方向,綜合可以得到人眼的最終視線方向。
挑戰:
由於人眼的大小不同,人臉的方向不同等等給視覺估計帶來很大的挑戰
方法:
根據人眼圖片計算絕對的視覺方向,會有很大誤差,因此,這篇文章選擇相對穩定的相對距離進行研究。
baseline:利用3層卷積層和2層全連接層,根據輸入圖片計算人眼視角gaze direction。
損失函數:L1
baseline缺點:
由於數據集中的人是一個個有特點的個體,具有自己的特色,而非同一個人的圖片,因此通過baseline網絡訓練的模型預測的結果和ground truth存在一個偏差,如下圖,擬合曲線和y=x之間總存在一個角度。
存在線性關係:
利用標定數據進行最小均方誤差(LMSE)優化,得到模型的線性參數,從而得到最終的優化後結果。
研究方法:
總體框架:不同個體之間的絕對視覺估計存在差異,但是相對距離比較穩定
(1)Siamese Network可以計算兩張圖片之間的Gaze difference,訓練時選取不同人的同一個眼睛的圖片,利用網絡預測兩者的視覺差異。
(2)測試時,將待估計的圖片與多張圖片計算視覺差異,從而根據相對值加差異值得到最終平均結果
Siamese Network
利用siamese network計算兩張圖片之間的視覺估計差異。
損失函數:
Gaze inference
利用校驗集的圖片,計算測試圖片與Dc張校驗圖片之間的gaze difference,根據已知的校驗圖片的視覺估計,計算圖片視覺估計真實值。
結果:
評估標準:值越小越好
結果:
閱讀更多 AI深度學習求索 的文章