HoloLens2的幕後故事:人工智能如何打造微軟的普適計算願景

華盛頓州,雷德蒙德——當人們第一次戴上全新HoloLens 2時,設備會自動開始識別他們:它會測量包括用戶手的準確形狀、精準的瞳距在內的一切數據。在英國劍橋領導HoloLens科學團隊的資深科學家Jamie Shotton表示,實現這些功能的人工智能研發過程“驚人的複雜”,但如果想讓使用該設備的體驗變成一種“本能”體驗,這些研發工作至關重要。

“我們希望用戶不用專門學習,就知道如何使用HoloLens。”他補充到:“我們知道如何與現實世界中的事物進行交互:我們拿起東西,按下按鈕,然後指向目標物。我們致力於將其直接轉化為混合現實。”

微軟今天宣佈HoloLens 2正式開始向客戶發貨。這款內置傳感器的全息計算頭戴顯示設備利用人工智能代替時間和空間,創造出一個由人、位置和物體組成的混合現實,以促進我們最基本的人類衝動之一:交換知識。

HoloLens2的幕後故事:人工智能如何打造微軟的普適計算願景

微軟技術院士Alex Kipman

微軟技術院士Alex Kipman表示,我們希望這款頭戴顯示設備可以展示智能邊緣設備的優秀能力——支持人工智能技術,即使沒有穩定的互聯網連接,也能收集和處理數據——並在聯網時與智能雲共享部分或全部數據。

不久之前,Kipman在他辦公室的數字白板上勾勒了這種普適計算結構的示意圖。他說:“HoloLens是微軟首個基於這種世界觀開發的設備。” HoloLens 2中的人工智能與微軟雲計算平臺Azure的人工智能功能相結合,讓那些需要騰出雙手操作的一線工作人員能夠學習有助於職業發展的技能,並使地球兩端說不同語言的人能夠通過對物體的互通認知進行協作。

微軟公司Microsoft Azure部門副總裁Julia White說:“你可以通過HoloLens做真正有趣的事,也可以通過雲來做真正有趣的事。但是當這兩者相結合時,你會發現,它改變了人們實際做事的方式方法。”

通過人工智能交付混合現實

為了實現與HoloLens 2的自然交互,Shotton和他的同事共同開發、訓練人工智能模型,並將其部署在設備上,以跟蹤人們的手部動作和視線,比如人們可以感知漂浮在自己眼前的全息影像並伸手調整大小或對其重新定位。

為了構建手部跟蹤系統,該團隊製作了一個帶有向內指向的圓頂攝像頭設備,用來記錄人們各種各樣的手形。之後團隊會使用離線的雲處理技術來構建能夠代表所有人手形和動作的3D模型。通過這個3D模型,團隊能夠使用計算機圖形來渲染逼真的合成人手圖像和合成標籤,從而使該模型能夠適用於各種手形、姿勢和運動。Shotton說:“你可以有效地生成無窮多的訓練數據。”

該團隊使用這些數據來訓練一個緊湊型深度神經網絡,這是一種適用於HoloLens的機載處理器的人工智能算法,能夠對來自設備的深度傳感器的每一幀畫面進行高效處理。當新用戶戴上HoloLens 2時,系統會利用這個神經網絡構建一個適合用戶手掌大小的個性化3D模型,從而實現與全息影像自然交互所需的精確跟蹤。

Shotton的團隊採用了類似的方法來構建和訓練眼球跟蹤模型,密切關注瞳孔間距——即雙眼瞳孔中心之間的距離,瞳距因人而異,它會影響一個人看近處或遠處物體的方式。最終這個眼球跟蹤模型,可以讓HoloLens 2能夠在客戶面前精確顯示全息影像,讓他們用手和眼睛同HoloLens 進行交互和操作。

Shotton表示:“眼球追蹤、全息影像和現實世界的匹配、人手的互動,所有這一切,如果沒有足夠的精度,根本談不上本能自然的交互體驗。”

貫穿邊緣到雲端的人工智能

不僅僅是手部和眼球跟蹤功能,其它的智能功能,比如SLAM(同步定位與地圖構建),都已經被嵌入到HoloLens 2的第二代全息處理單元中,該芯片也被稱為HPU2.0。

Kipman把這種設備上的人工智能功能稱作感知人工智能。他說:“感知就像爬行動物的大腦,它執行的是腦部本能、想都不用想的操作。”對於人來說,這類智能使我們的心臟保持跳動、我們的肺部自主呼吸、我們的眼睛進行微跳動以測量景深。比如當我們口渴並想要喝水時,我們的眼睛會本能地測量到手舉水杯到唇邊的距離。

HoloLens 2上的感知人工智能使人們能夠操控全息影像並與之進行交互,而無需擔心所謂的延遲——通常,數據傳輸到雲端、進行處理並返回到邊緣需要花數百毫秒的時間。當你在全息影像上按下一個按鈕,或者用眼球在全息影像上瀏覽文本時,“即使幾十毫秒也會產生顯著的感知差異。”Shotton指出:“運轉時長至關重要。”

對隱私的保護是在設備上進行本地人工智能計算的另一個原因,例如HoloLens 2用來驗證客戶身份的虹膜掃描信息——人們可能不希望將這類私人數據發送到雲端。然而,對於許多其它類型的數據來說,將其發送到雲端是有好處的:因為一旦這些數據到達雲端,客戶就可以利用Azure AI和混合現實服務,將他們設備上的數據與整個普適計算結構中的數據相結合,“這使很多更高級的運算和認知功能得以運行。”Kipman說。

HoloLens2的幕後故事:人工智能如何打造微軟的普適計算願景

HoloLens 2零部件展示圖

雲端協作

微軟混合現實與人工智能蘇黎世實驗室主任Marc Pollefeys表示,智能雲賦能的全息計算的一個關鍵優勢就是,它可以與其他擁有HoloLens或類似設備的人共享信息。Pollefeys正在領導一個團隊研發用於混合現實雲服務的核心計算機視覺算法——Azure Spatial Anchors,該服務能夠讓全息影像保留並鎖定在現實世界中,供任何具有適當訪問權限的人查看。

比如說,Spatial Anchors技術讓工廠管理者能夠把全息影像放在裝配線上的設備旁邊,包含重要的實時操作和維護信息,任何獲得認證並擁有混合現實設備的工人都可以訪問這些信息。

Pollefeys說:“如果我只能在我自己的設備上回看這些信息,那這樣的全息影像就毫無意義。但是,如果我能夠在全息影像中對現實世界進行批註和標記,並且公司裡任何有訪問權限的人都可以看到這些信息,那麼這就實現了價值飛躍。”

為了創建這一功能,Pollefeys和他的團隊開發了人工智能計算機視覺算法,該算法可處理來自傳感器的數據,提取周圍環境的3D幾何信息,並將其整合、上傳到雲平臺,創建出基於這些相關區域數字孿生系統或視圖。

Pollefeys指出,HoloLens總是通過解讀3D或空間信息的方式,瞭解其所在的運行環境。Azure Spatial Anchors創建、優化這些視圖,並在各種設備上進行共享,這就是為什麼要把來自各個設備的視圖拼湊在一起並存儲在雲中。他說:“只在一臺設備上存儲這些數據是沒有意義的。就好比我有一小塊拼圖、其他人也有一小塊拼圖,只有當我們把各自設備中生成的拼圖整合到一起,才可以覆蓋整個空間。”

隨著各種支持混合現實功能的設備,包括HoloLens以及適當配置的手機、平板電腦和筆記本電腦,繪製出的環境信息不斷整合,並共享在雲端,這些視圖將隨著時間的推移變得更加詳實、更加精確、更加強大。

以工廠為例,隨著越來越多有訪問權限的工人用自己的設備查看全息影像,工廠車間的整體視圖將會不斷地改進,最終完整全息影像將會被經理放置在裝配線設備的上方。該功能還支持其它一些場景,例如:建築師和客戶開會時,每個參會人員都佩戴一個混合現實設備,將可以從自己的視角查看該建築的全息3D設計圖,並與之進行交互。

Julia White指出,Azure包含預構建服務,可在HoloLens和任何其它混合現實設備上,包括運行iOS和安卓操作系統的智能手機和平板電腦,為這類體驗編寫應用程序。她指出:“這種協作體驗不僅僅限於HoloLens。而且開發者在編寫這些令人驚歎的應用時的成本、操作難度和技能要求都隨之大大降低。” 例如,跨設備和平臺功能可以優化《我的世界:地球》的遊戲體驗。將流行的視頻遊戲與混合現實融合在一起,一個玩家可以在現實世界中搭建並放置可持久存在的虛擬結構,這樣,其他玩家就可以在自己的設備上與之進行交互。

Julia White說:“我們都參與其中,因為它基於雲技術,能夠被各種類型的設備解讀和詮釋。”

以人為本的技術

Kipman指出,要想讓HoloLens達到我們預想的那樣去工作,支持這種體驗的技術就必須以類似人類的方式來理解這個世界。因此,他和微軟各個部門的同事合作,一同在這普適計算的數據網中開發、部署這些技術,並充分利用人工智能技術研究解決方案——從HoloLens 2的芯片到Azure AI和混合現實服務。

我們的目光再次回到Kipman的數字白板,他現在已經勾勒出一個普適計算的願景,這個白板上有文字、方框、箭頭,還有一幅簡筆畫——畫中的兩人在一個智能設備旁交談。

他說,這就是普適計算的終極目標——讓人們以自然的方式與他人進行交互。為了強調這一點,他特意停頓了一下,與觀眾進行眼神交流,並說:“希望你們能從這次的談話中得到更多收穫,因為在真實世界中大家現在就在我身邊。”

他繼續說道:“我們本可以通過電話或者Skype來交流,我甚至可以錄下我的演講,然後把磁帶寄給你們。但大家沒有選擇這麼做,而選擇了面對面交流。為什麼?因為這就是我們人類習慣的做事方式。”

“但這樣面對面的缺點是,大家必須和我同時在同一個地點。而全息技術的力量就在於,它能夠幫助我們打破空間和時間的界限。”


分享到:


相關文章: