自監督學習幫助機器人實現多功能“發育”,數據集已不再是問題

自監督學習幫助機器人實現多功能“發育”,數據集已不再是問題

到目前為止,強化學習(RL)已被證明是一種在單任務上訓練機器人的有效技術。但是,在訓練多功能機器人(能夠完成需要不同技能的多種任務)時,大多數現有的強化學習方法效果遠非理想。

近期,加州大學伯克利分校的一組研究人員最近開發了一種新的強化學習方法,該方法可用於教導機器人根據演示任務調整其行為。在arXiv上預先發表的論文中對這種方法進行了概述,並在今年的機器人學習大會上進行了介紹。該方法允許機器人在給定的環境中,自主行動並不斷嘗試新的行為,從而確定有效的解決辦法。然後,機器人利用他們自己獲得的知識,並將其應用於人類用戶要求他們完成的新任務。

數據是機器人操縱的關鍵,為獲得足夠的數據解決操縱問題,機器人不得不自行收集數據。 這就是我們所謂的自監督式機器人學習:可以自己主動收集探索數據並獨自了解它在任務中是成功還是失敗以學習新技能的機器人。

新方法基於先前工作中提出的目標條件的RL框架。在這項先前的研究中,研究人員介紹了在潛在空間中設定目標的技術,該技術可以訓練機器人進行技能訓練,例如推物體或開門,而無需外部獎勵功能或狀態估計。

自監督學習幫助機器人實現多功能“發育”,數據集已不再是問題

“在我們的新工作中,我們將重點放在泛化上:如何進行自監督學習以不僅學習一種技能,而且還能在執行該技能時泛化成視覺多樣性?”奈爾說。 “我們相信,能夠適應新情況的能力將是更好地進行機器人操縱的關鍵。”

奈爾和他的同事提出的條件性目標設定模型不是針對單個機器人的許多技能進行單獨訓練,而是旨在設定適合於機器人並與機器人當前狀態保持一致的特定目標。本質上,他們開發的算法學習了一種特定類型的表示形式,該表示形式將機器人可以控制的事物與機器人無法控制的事物區分開來。

當使用他們的自監督學習方法時,機器人最初是通過與其周圍環境進行隨機交互來收集數據(即一組圖像和動作)。隨後,它訓練了該數據的壓縮表示形式,該壓縮表示形式將圖像轉換為低維向量,這些向量隱含了諸如對象位置之類的信息。這種表示方式沒有明確告知要學習的內容,而是通過其壓縮目標自動理解了概念。

使用學習的表示,機器人會練習達到不同的目標,並通過強化學習來訓練策略。壓縮表示形式是該練習階段的關鍵:它用於測量兩個圖像的接近程度,以便機器人知道它成功或失敗的時間,並且可以用來採樣目標以供機器人練習。在測試時,它可以通過執行人員的學習策略來匹配人員指定的目標圖像。

自監督學習幫助機器人實現多功能“發育”,數據集已不再是問題

研究人員在一系列實驗中評估了他們方法的有效性,在這些實驗中,機器人在使用MuJuCo模擬平臺創建的環境中操縱了以前看不見的物體。有趣的是,他們的訓練方法使機器人能夠自動掌握技能,然後將其應用於新情況。更具體地說,該機器人能夠操縱各種物體,將以前獲得的操縱策略推廣到訓練期間未遇到的新物體。

奈爾說:“我們對這項工作的兩個結果感到非常興奮。” “首先,我們發現我們可以訓練一個策略來將現實世界中的對象推到大約20個對象上,但是學習到的策略實際上也可以推其他對象。這種類型的歸納是深度學習方法的主要前景,我們希望這是即將出現的更令人印象深刻的泛化形式的開始。”

值在他們的實驗中,能夠從固定的交互數據集中訓練策略,而不必在線收集大量數據。這是一項重要的成就,因為機器人技術研究的數據收集通常非常昂貴,並且能夠從固定的數據集中學習技能,這使得該方法更加實用。


分享到:


相關文章: