加利福尼亞大學伯克利分校發佈增強機器人模仿學習的新框架AVID


加利福尼亞大學伯克利分校發佈增強機器人模仿學習的新框架AVID

近年來,全球研究團隊一直在使用強化學習(RL)來教機器人如何完成各種任務。但是,訓練這些算法可能非常具有挑戰性,因為在正確定義機器人要完成的任務時還需要大量的人力。


一種方法是通過人類演示教機器人如何完成特定任務。儘管這看起來很簡單,但是很難實現,主要是因為機器人和人類的身體非常不同,因此他們能夠進行不同的移動。


加利福尼亞大學伯克利分校的研究人員最近開發了一個新的框架,該框架可以幫助克服通過模仿學習(即使用人類演示)訓練機器人時遇到的一些挑戰。


在開發該框架的時候,團隊主要建立在CycleGAN和SOLAR這兩項最新算法的基礎上,它們引入瞭解決基本侷限性的方法,這些侷限性使得人們無法從域轉換中的人類視頻中學習,也無法通過視覺輸入對物理機器人進行培訓。


為何使用CyclGAN?


沒有使用沒有考慮到機器人與人類用戶的身體之間的差異的技術,而是使用了Cycle-GAN,該技術可以在像素級別上轉換圖像。他們使用Cycle-GAN,將人類如何完成給定任務的演示轉換為完成同一任務的機器人的視頻。然後,他們使用這些視頻為RL算法開發了獎勵功能。


加利福尼亞大學伯克利分校發佈增強機器人模仿學習的新框架AVID

由模型生成的翻譯的樣本靜止圖像(上排是真實的人類圖像,下排是偽造的機器人圖像)


有啥優勢?


該框架的工作原理是讓機器人觀察人類執行某些任務,然後想象自己執行相同任務的樣子。要學習如何真正實現這一想象中的成功,我們讓機器人通過反覆試驗來學習。


藉助該新框架,機器人可以一次學習一個階段的任務,重置每個階段並再次嘗試,而無需人工干預。因此,學習過程在很大程度上變得自動化,而機器人只需最少的人工干預即可學習新技能。


他們的方法的主要優勢在於,人類老師可以在學習過程中與機器人學生互動,此外將訓練框架設計為適合於以最小的努力來學習長期行為。

加利福尼亞大學伯克利分校發佈增強機器人模仿學習的新框架AVID

加利福尼亞大學伯克利分校發佈增強機器人模仿學習的新框架AVID

加利福尼亞大學伯克利分校發佈增強機器人模仿學習的新框架AVID

結論

研究人員在一系列試驗中評估了他們的方法,發現它可以有效地教機器人如何完成複雜的任務,例如操作咖啡機,只需處理20分鐘的原始人類演示視頻並練習180分鐘的新技能即可。此外該框架優於所有其他技術,包括模仿消融,像素空間消融和行為克隆方法。


實驗發現可以利用CycleGAN有效地使機器人進行人類演示的視頻理解,而無需繁瑣的數據收集過程,還可以利用時間擴展任務的多階段性質,可以學習健壯的行為,同時使訓練變得容易。作者認為他們的研究是朝著使自動駕駛機器人的實際部署觸手可及的方向邁出的重要一步,因為它為我們提供了可以自然,直觀地教他們。”


引入的新的學習框架實現了另一種類型的模仿學習,在這種模仿學習中,機器人一次學習一次完成一個更高層次的目標,並專注於在每個步驟中發現的最大挑戰。而且,代替了在每次練習後都要求人類用戶重設場景的功能,它使機器人可以自動重設場景並繼續練習。將來,該框架可以增強模仿學習過程,從而使開發人員可以更快,更有效地訓練機器人。


侷限性

到目前為止,我們研究的主要限制之一是對於機器人可能遇到的每個新場景,我們都需要對CycleGAN進行數據收集和訓練。我們希望能夠將CycleGAN訓練視為一次性的前期費用,例如只要對大量數據進行一次訓練,就可以使機器人通過一些演示和一點練習就可以很快掌握各種技能。


論文地址:

https://arxiv.org/pdf/1912.04443.pdf

SOLAR論文地址:

https://arxiv.org/pdf/1808.09105.pdf

CycleGAN論文地址:

https://arxiv.org/pdf/1703.10593.pdf



分享到:


相關文章: