通過“幻覺”場景,訓練機器人識別物體位置

隨著越來越多的機器人進入各種環境,研究人員正試圖讓它們與人類的互動儘可能順暢和自然。訓練機器人立即對口頭指令做出反應,如“拿起玻璃,把它移到右邊”等,這在許多情況下是理想的,因為它最終將實現更直接,更直觀的人機交互。但是,這並不總是那麼容易,因為它需要機器人理解用戶的指令,而且還需要知道如何根據特定的空間關係移動對象。

通過“幻覺”場景,訓練機器人識別物體位置

Oier Mees 演示新方法的工作原理。

德國弗萊堡大學的研究人員最近設計了一種新的方法來教機器人如何按照人類用戶的指令移動物體,這種方法的工作原理是對“產生幻覺的”場景表徵進行分類。他們的論文將於今年6月在巴黎舉行的IEEE機器人和自動化國際會議(ICRA)上正式發表。

開展這項研究的研究人員之一奧伊爾·米斯說:“在我們的工作中,我們專注於關係物體的放置指令,比如‘把杯子放在盒子的右邊’或‘把黃色玩具放在盒子上面’,要做到這一點,機器人需要推理出杯子相對於盒子或任何其他參考物體的放置位置,以便再現用戶描述的空間關係。

訓練機器人理解空間關係並相應地移動對象可能非常困難,因為用戶的指令通常不會描繪機器人觀察到的更大場景中的特定位置。換句話說,如果人類用戶說“把杯子放在手錶的左邊”,機器人應該把杯子放在離手錶多遠的地方,以及不同方向(例如,右、左、前、後等)之間的確切邊界在哪裡?

米斯說:“由於這種內在的模糊性,也沒有基本的事實或‘正確的’數據可以用來學習建立空間關係模型。”我們從輔助學習的角度來解決空間關係的不可用性,即空間關係的像素化註釋。

米斯和他的同事設計的方法背後的主要思想是,當給出兩個物體和一個表示它們所在環境的圖像時,就更容易確定它們之間的空間關係。這使得機器人能夠檢測一個物體是否在另一個物體的左邊、上面、前面等等。

通過“幻覺”場景,訓練機器人識別物體位置

圖中總結了研究人員設計的方法是如何工作的。

上圖 / 圖中總結了研究人員設計的方法是如何工作的。輔助的CNN(稱為RelNet)被訓練來預測給定輸入圖像和兩個注意掩碼的空間關係,這兩個注意掩碼指的是形成一個關係的兩個對象。(a) 訓練後,網絡可以通過(b)在不同的空間位置實現項目的高級特徵來“欺騙”對幻覺場景進行分類。

雖然識別兩個對象之間的空間關係,並沒有指定應在何處複製這些關係,但在場景中插入其他對象可能會允許機器人推斷多個空間關係的分佈。將這些不存在的物體(即幻覺)添加到機器人所看到的物體中,應該允許它評估場景在執行給定動作時的樣子(即,將一個對象放置在桌面或前面的特定位置)。

米斯說:“最常見的情況是,在圖像中真實地‘粘貼’對象需要訪問三維模型和輪廓,或者仔細設計生成性對抗網絡(GANs)的優化過程。”此外,在圖像中天真地“粘貼”對象遮罩會產生細微的像素偽影,導致顯著不同的特徵,並導致錯誤地將訓練重點放在這些差異上。我們採取不同的方法,並將對象的高層次特徵植入由卷積神經網絡產生的場景的特徵圖中,以幻覺場景表示,然後將其分類為輔助任務以獲得學習信號。

在訓練卷積神經網絡(CNN)學習基於幻覺物體的空間關係之前,研究人員必須確保它能夠基於單一圖像對單個物體對之間的關係進行分類。隨後,他們通過在不同的空間位置植入物品的高級特徵,“欺騙”了他們的名為RelNet的網絡,將“幻覺”場景分類。

米斯說:“我們的方法允許機器人遵循人類用戶給出的自然語言放置指令,只需最少的數據收集或啟發式操作。”每個人都希望家裡有一個服務機器人,它可以通過理解自然語言指令來執行任務。這是讓機器人更好地理解常用空間介詞含義的第一步。”

現有的訓練機器人,移動物體的方法大多使用與物體的三維形狀相關的信息來建模成正確的空間關係。這些技術的一個關鍵限制是,它們通常需要額外的技術組件,例如可以跟蹤不同物體運動的跟蹤系統。另一方面,米斯和他的同事提出的方法不需要任何額外的工具,因為它不是基於三維視覺技術的。

研究人員在一系列涉及真人用戶和機器人的實驗中對他們的方法進行了評估。這些測試的結果非常有希望,因為他們的方法使機器人,能夠根據人類用戶口頭指令勾勒出正確的空間關係,有效地識別將物體放置在桌子上的最佳策略。

通過“幻覺”場景,訓練機器人識別物體位置

模型生成的示例照片(上面是真實的人類圖像,下面是假的機器人圖像

米斯說:“我們讓場景產生幻覺的新方法在機器人學和計算機視覺領域也有多種應用,因為機器人常常需要能夠估計未來狀態的好壞,以便對他們需要採取的行動進行推理。”通過使用幻覺場景表示作為數據增強的一種形式,它還可以用來提高許多神經網絡的性能,例如物體檢測。

米斯和他的同事們能夠模擬一組自然語言空間介詞(例如,右,左,上等)進行建模,而無需使用3-D視覺工具。 將來,他們的研究中提出的方法可用於增強現有機器人的功能,從而使它們能夠在遵循人類用戶的語音指導的同時,更有效地完成簡單的對象移動任務。

同時,他們的論文可以為類似技術的發展提供信息,以增強人類和機器人在其他對象操作任務中的交互作用。如果與輔助學習方法相結合,米斯和他的同事開發的方法,也可以減少與編纂機器人研究數據集相關的成本,因為它能夠預測像素的概率,而不需要大的註釋數據集。

米斯總結道:“我們認為,這是朝著實現人類和機器人之間的共同理解邁出的有希望的第一步”。“在未來,我們希望擴展我們的方法,納入對引用表達的理解,以便開發一個遵循自然語言指令的挑選和放置系統。”

通過“幻覺”場景,訓練機器人識別物體位置

第一頁


通過“幻覺”場景,訓練機器人識別物體位置

第二頁


通過“幻覺”場景,訓練機器人識別物體位置

第三頁


通過“幻覺”場景,訓練機器人識別物體位置

第四頁


通過“幻覺”場景,訓練機器人識別物體位置

第五頁


通過“幻覺”場景,訓練機器人識別物體位置

第六頁


通過“幻覺”場景,訓練機器人識別物體位置

第七頁


分享到:


相關文章: