不用3D視覺工具,靠“幻覺”場景就能訓練機器人識別物體空間位置

不用3D視覺工具,靠“幻覺”場景就能訓練機器人識別物體空間位置

隨著越來越多的機器人進入各種複雜環境,研究人員正努力使它們與人類的互動儘可能地順暢自然。訓練機器人對口頭指令立即做出反應,例如“拿起玻璃杯,向右移動”等,在許多情況下都是理想的,因為它最終將使人類與機器人之間的交互更加直接和直觀。然而,這並不總是容易的,因為它需要機器人理解用戶的指令,還需要知道如何根據特定的空間關係移動物體。

德國弗萊堡大學的研究人員最近設計了一種新方法,通過對“幻覺”場景表象進行分類,來教機器人按照人類用戶的指令移動物體。他們在arXiv上預先發表的論文將於今年6月在巴黎舉行的IEEE機器人與自動化國際會議(ICRA)上發表。

“在我們的工作中,我們專注於相關對象的放置指令,比如‘把杯子放在盒子的右邊’或‘把黃色的玩具放在盒子的頂部’。”參與這項研究的研究人員之一Oier Mees告訴TechXplore。“為了做到這一點,機器人需要考慮把杯子相對於盒子或任何其他參考物體放在哪裡,以重現用戶描述的空間關係。”

訓練機器人理解空間關係並相應地移動物體是非常困難的,因為用戶的指令通常不會在機器人觀察到的更大的場景中描繪特定的位置。換句話說,如果一個人類用戶說“把杯子放在手錶的左邊”,機器人應該把杯子放在手錶的左邊多遠,以及不同方向之間的確切界限在哪裡(例如,右、左、前、後等)?

“由於這種固有的模糊性,也不存在可以用來學習空間關係建模的基礎事實或‘正確’數據。”Mees說,“我們從輔助學習角度來解決空間關係基於事實的像素標註的不可用性問題。”

Mees和他的同事們設計的方法背後的主要思想是,當給定兩個物體和一個代表它們被發現的環境的圖像時,更容易確定它們之間的空間關係。這使得機器人能夠檢測出一個物體是否在另一個物體的左邊、上面、前面等等。

雖然識別兩個對象之間的空間關係並沒有指定應該將這些對象放置在何處來重現這種關係,但是在場景中插入其他對象可以讓機器人推斷出在多個空間關係中的分佈。將這些不存在的(即幻覺的)對象添加到機器人所看到的內容中,將允許它評估場景在執行給定動作時的外部環境(即,將一個對象放置在桌面或前面的特定位置)的)。

“最常見的情況是,在圖像中真實地‘粘貼’對象需要訪問3D模型和輪廓,或者仔細設計生成對抗網絡(GANs)的優化過程。”Mees說,“此外,在圖像中簡單地“粘貼”對象會產生微妙的像素偽影,導致明顯不同的特徵,並使訓練錯誤地聚焦於這些差異。我們採用一種不同的方法,將物體的高級特徵植入卷積神經網絡生成的場景特徵圖中,對場景表象產生幻覺,並將其分類為輔助任務來獲取學習信號。”

在訓練卷積神經網絡(CNN)學習基於幻覺對象的空間關係之前,研究人員必須確保它能夠根據單個圖像對單獨的物體對之間的關係進行分類。隨後,他們“欺騙”了這一網絡,稱為RelNet,通過在不同的空間位置植入高水平的物品特徵來對“幻覺”場景進行分類。

“我們的方法允許機器人通過最少的數據收集或啟發來遵循人類用戶給出的自然語言的放置指令。”Mees說,“每個人都想在家裡有一個服務機器人,它可以通過理解自然語言指令來執行任務。這是讓機器人更好地理解常用空間含義的第一步。”

大多數現有的訓練機器人移動物體的方法都是利用與物體三維形狀相關的信息來模擬成對的空間關係。這些技術的一個關鍵限制是,它們通常需要額外的技術組件,比如可以跟蹤不同物體運動的跟蹤系統。另一方面,Mees和他的同事提出的方法不需要任何額外的工具,因為它不是基於3D視覺技術。

研究人員在一系列涉及真人用戶和機器人的實驗中評估了他們的方法。這些測試的結果很有希望,因為它們的方法可以讓機器人根據人類用戶的語音指令所描述的空間關係,有效地識別出將物體放在桌子上的最佳策略。

“幻覺場景代表我們的新穎的方法在機器人技術和計算機視覺社區中也可以有多種應用, 因為機器人通常需要能夠估計未來狀態的良好程度,以便推理出他們需要採取的行動。”Mees說。“通過使用幻覺場景表示作為數據增強的一種形式,它還可以用來提高許多神經網絡的性能,比如對象檢測網絡。”

Mees和他的同事們能夠在不使用3D視覺工具的情況下,可靠地建立一組自然語言空間詞的模型(如右,左,在上,等等)。在未來,他們研究中提出的方法可以用來提高現有機器人的能力,讓它們更有效地完成簡單的物體移動任務,同時遵循人類用戶的語音指令。

同時,他們的論文也可以為開發類似的技術提供參考,以增強在其他對象操作任務中人類和機器人之間的交互。如果加上輔助的學習方法,Mees和他的同事開發的方法還可以減少與機器人研究數據集編譯相關的成本和工作,因為它可以在不需要大型註釋數據集的情況下預測像素概率。

Mees總結道:“我們認為這是朝著人類和機器人之間達成共識邁出的有希望的第一步。”“在未來,我們希望擴展我們的方法,納入對指稱表達式的理解,以開發一個遵循自然語言指令的取放系統。”

原文來源:https://techxplore.com/news/2020-02-robots-placements-hallucinating-scenes.html


分享到:


相關文章: