10.17 為什麼說手勢識別將成為VR、AR頭顯主流的交互方式?

隨著Oculus將於2020年初在Quest中加入手勢識別功能這一消息發佈,手勢交互終於打破局面,開始真正走向消費端。

為什麼普通攝像頭+深度學習方案更適合VR/AR?

此次Oculus Quest手勢識別使用了基於計算機視覺的手勢識別的技術方案。(感謝凌感科技uSens費越博士對本文技術部分的支持)

VR陀螺從費越博士口中瞭解到,目前基於計算機視覺的手勢方案實際上也分為兩種:一種是用深度攝像頭,一種是用一個或者多個普通攝像頭實現。而其中深度攝像頭的方案又分為兩種,TOF(Time of Flight,光飛時間)和結構光。實際上結構光,或者TOF輸出的東西基本一樣,都是一張深度圖。

相對於兩種使用深度攝像頭的方案,基於一個或多個普通攝像頭實現的手勢識別難度更高,但得益於技術發展,其在精度、成本綜合性能上正在成為主流。業內的Leap Motion、凌感uSens就是使用這種方案,Oculus Quest也是使用原有的用於SLAM和手柄跟蹤的四個灰度攝像頭用深度學習算法來實現的手勢識別。

凌感uSens自2015年就開始使用深度學習技術實現手勢識別,並在2017年發佈了和Oculus Quest類似的基於灰度攝像頭的手勢識別及SLAM方案。 不久前凌感還研發發佈了單目RGB相機上的三維手勢骨骼識別,可識別手部全部22個關節點的26DOF(26自由度)信息,關節點包括3D位置信息和3D旋轉信息。在單目RGB相機上實現三維手勢骨骼識別相對於多個灰度相機的方案來說算法的難度更高。

為什麼說手勢識別將成為VR、AR頭顯主流的交互方式?

近年來TOF方案在手機上應用越來越廣泛,也是最容易實現深度信息的方案,但在VR、AR設備上卻幾乎沒有。原因可以從以下幾個方面來看:

AR、VR對相機要求非常高,首先必須做到延遲非常低。據稱,普通相機延遲可以達到4ms以下,從相機獲取圖像到把圖像傳過來的延遲都控制在10ms以下。但TOF相機難以做到,一般TOF相機獲取圖像的過程延遲約為四五十毫秒。因為TOF相機的工作原理不是拍一張圖像,而是要連續拍多張圖像,再根據圖像不同的激光的相位,來還原出深度信息。而拍多張的後果導致延時高,並且要求一定的計算,也需要耗時。同時,這種方案還會有一些運動模糊,如果手動作特別快,在多張圖像中的位置不同,也會導致信息測算不精準。

對於AR、VR來說,它的要求比一般手機識別人臉的要求高非常多。手不管動得多快,都必須有反應,需要精確、低延遲,不然容易產生眩暈。

TOF的第二個問題在於視角。在VR中追蹤範圍越大,手、手柄能夠運動的幅度就越大,灰度相機配上魚眼鏡頭可以視角達到160度以上,多相機系統可以達到200度以上的覆蓋範圍。但一般性能比較好的TOF,視角約為60度,最大也只有90度左右。

TOF在手機上可行,但對VR、AR應用來說,致命的就是延遲和視角。

所有VR、AR硬件低成本加入高精度手勢識別成為可能

  • 實現高精度手勢識別的必要條件

得益於計算機視覺和深度學習技術的發展,終於能夠在普通攝像頭上實現精度較高的手勢識別,當然要實現起來並沒有那麼簡單。

根據資料,Facebook對VR的手勢識別感興趣的第一個跡象早就在2014年底顯露出來。其收購了由4名資深手勢識別技術專家組成的初創公司Nimble VR。但是收購之後,Oculus清楚地知道該技術“甚至可能不會在CV2或CV3中使用”。2016年的OC3大會上,首席科學家Michael Abrash預測在2021年的VR中能夠使用基於手套上標記實現的手勢識別,這時在Oculus的計劃中仍然是手套形態。

不過在2018年的F8上,Oculus終於展示了高質量的無手套、無標記的手勢識別,並提到這一“突破”是由於Facebook在機器學習研究上的大量投資而得以實現。

實際上,早在2015年,凌感基於普通相機+深度學習的方案已經研發出來。

為什麼說手勢識別將成為VR、AR頭顯主流的交互方式?

要讓手勢識別實現更高的精度,識別更多的關節點是其中最基礎的部分,比較高級的能夠做到識別22個關節點26自由度的手部運動信息,如凌感uSens、Leap Motion以及Oculus收購的NimbleVR等。

另外,對手勢識別精度起到決定性的還有兩個因素:一個是模型是否好,只有好的模型才能預測出來更多3D的點。第二是需要有足夠的高精度的數據,才能訓練出來好的模型。


因為深度學習有推測功能,從不完全的信息可以推測出來完全的信息。手不像人臉,手的運動非常複雜,經常會出現遮擋問題,甚至兩個手相互遮擋,所以信息是不全的,如何從不全的信息推理出來全的信息,就需要用到深度學習不斷訓練和積累。據稱凌感的手勢識別經過多年積累已經可以在被遮擋超過50%的情況下,將誤差控制在5%以下。


  • 利用現有SLAM攝像頭實現手勢識別

據費越博士稱,VR、AR設備中加入手勢識別,可以基於已有的用於SLAM的灰度攝像頭直接實現,不需要增加外部硬件。

在inside-out追蹤成為主流的如今,近兩年無論是PC端VR頭顯還是移動端VR一體機,亦或是AR眼鏡,幾乎都加入了SLAM定位功能。這樣的大前提為手勢識別技術的普及帶來了極為有利的條件。

目前大部分用於SLAM的攝像頭均為魚眼或者廣角灰度攝像頭,在實現的精度上,用同樣的計算資源或者用同樣複雜度模型的話,基於深度的或者灰度的攝像頭能夠做到精度最高,RGB的精度反而相對會弱一些,因此,直接在SLAM的相機上實現手勢識別的精度也能夠達到比較滿意的效果。

另外,對於頭顯的功耗負擔,據費越博士稱,以凌感自己的產品為例,在同時運行SLAM定位追蹤和手勢識別的情況下,即使完全使用CPU的模式下,所佔用的CPU的資源可以能夠控制在30%以內,所以大部分的CPU運算能夠留給軟件運行。另外凌感的手勢識別目前還針對高通、MTK、瑞芯微等芯片中的NPU做了移植,進一步降低了CPU資源佔用。

此外,為了擴大手柄的追蹤範圍,目前的VR/AR頭顯採用了更多的攝像頭,如Quest、Vive Comos使用4個攝像頭,Rift S採用5個攝像頭。之前手勢需要手保持在眼前位置才能精準捕捉到,隨著頭顯追蹤攝像頭的增加,也極大擴展了手的可捕捉範圍。

“最自然交互”手勢識別將成VR/AR頭顯標配

  • Oculus Quest帶來利好信號

在Oculus Quest之前,手勢識別實際上已經成為了AR眼鏡中最基本的交互方式,而VR上Vive Focus等設備也都開啟了嘗試。

手勢識別如果要大規模應用,僅靠以B端為主的AR難以實現。而在VR端,目前真正面向消費端的帶有該功能設備以及相關應用都極其稀缺。

作為現階段全球在消費端最有潛力的VR一體機,Quest上加入手勢識別功能或許將打破這一現狀。

實際上在使用基於計算機視覺方案之前,Oculus Touch手柄已經實現了一部分手勢動作,如握拳、豎拇指、開槍等手勢,包括Valve Index的指虎手柄,也是為了在遊戲中呈現更為自然的手部動作。Quest加入手勢識別,意味著這一技術終於真正開始面向消費端用戶,也將帶來更多開發者針對這一交互開發探索出更多的內容形態。

為什麼說手勢識別將成為VR、AR頭顯主流的交互方式?

費越也提到,凌感的手勢識別目前主要應用在三大領域,以AR、VR、手機為主的2C領域,汽車領域以及工業自動化領域,其中VR、AR、手機領域需求增長非常迅速。

  • 最自然的交互方式

“交互的最終形態不需要定義,他做的就是人在真實世界裡面要做的事情。”

VR、AR的獨特之處在於沉浸感,而在沉浸環境中,最自然的交互莫過於與現實中一樣,揮手打招呼、猜拳、握手、抓取、擊掌……

為什麼說手勢識別將成為VR、AR頭顯主流的交互方式?


為什麼說手勢識別將成為VR、AR頭顯主流的交互方式?


從智能終端的發展來看,從PC到手機,一切都在簡化,特別是在智能手機時代,交互簡化到只需要滑動、點擊,就連2、3歲的小孩都能輕易上手。

VR、AR的交互複雜,也代表著用戶的學習成本越高,同時也容易“出戏”。現在除了純觀影類的內容之外,幾乎所有帶交互內容都需要一定的學習過程,用戶需要在體驗過程中記住每個按鍵所對應的功能。

即使Index指虎手柄能夠感應到手指在其中的運動,不過對於更細緻的骨骼追蹤精度與專業的手勢識別技術仍然有一定的差距,而且手柄會受到每個人手部大小的限制,也難以實現握手、雙手合十、交叉等等複雜姿勢。

手柄與手勢兩種交互方式各有優劣和適合的使用場景。比如手勢無法實現手柄按鍵的物理反饋,特別是射擊類型的遊戲體驗中,扣動扳機的反饋是手勢絕對難以做到的;以及Index指虎手柄的壓力反饋,能夠在虛擬環境中呈現握力,手勢識別亦無法實現。

而在諸如模擬、社交類這類的內容中,越接近真實的場景對於手勢越有優勢,開發者可拓展性也更強。


為什麼說手勢識別將成為VR、AR頭顯主流的交互方式?


手勢在需要觸覺反饋的體驗上無法取代手柄,而手柄也無法自然地實現手部動作的呈現以及複雜的手部姿態,但從毋庸置疑的是未來手勢將會變成XR設備中不可或缺的一種交互方式,越來越普及。

為什麼說手勢識別將成為VR、AR頭顯主流的交互方式?


分享到:


相關文章: