Google新開發一款AI系統,它可以“教”機器人模仿狗狗的動作

本週發表的一篇預印本論文和博客文章顯示,谷歌研究人員開發了一款可以學習和模擬動物的動作的AI系統,以賦予機器人更大的靈活性。該論文的合著者認為,他們的方法可以促進機器人的發展,從而讓機器人能夠完成生活中一些對靈活性要求較高的任務,例如在多層倉庫和履行中心之間運輸材料。

該團隊的框架採用動物(在本例中是狗)的動作捕捉片段,並使用強化學習(reinforcement learning)來訓練控制策略,強化學習是一種通過獎勵激勵軟件代理完成目標的訓練技術。

研究人員說,為該系統提供不同的參考運動,使他們能夠“教”一個四足Unitree-Laikago機器人執行一系列行為,從快速行走(速度高達每小時2.6英里)到跳躍和轉身。

為了驗證他們的方法,研究人員首先編制了一組真實的狗表演各種技能的數據集。(訓練主要在物理模擬中進行,以便能夠密切跟蹤參考運動的姿勢)。然後,通過使用獎勵函數中的不同運動(描述了行為者的行為方式),研究人員用大約2億個樣本訓練了一個模擬機器人來模擬運動技能。

Google新开发一款AI系统,它可以“教”机器人模仿狗狗的动作

但模擬器通常只提供對真實世界的粗略近似。為了解決這個問題,研究人員採用了一種自適應技術,該技術可以隨機化模擬中的動力學,例如改變物理量,例如機器人的質量和摩擦力。使用編碼器將這些值映射到數字表示(即編碼),該數字表示作為輸入傳遞給機器人控制策略。當將該策略部署到實際的機器人上時,研究人員移除了編碼器,並直接搜索一組變量,這些變量使機器人能夠成功執行技能。

該團隊說,他們能夠在大約50個試驗中使用不到8分鐘的真實數據來使策略適應實際情況。此外,他們還演示了真實的機器人學習模仿狗的各種動作,包括踱步和小跑,以及藝術家動畫的關鍵幀動作,如動態跳躍轉身。

“我們證明,通過利用參考運動數據,一種基於學習的方法能夠自動合成控制器,以實現有腿機器人的各種行為。”該論文的合著者寫道。“通過將有效的領域自適應樣本技術整合到培訓過程中,我們的系統能夠學習模擬中的自適應策略,然後可以快速將其應用於實際部署中。”

然而,這種控制策略不是十全十美的。

由於算法和硬件的限制,它無法學習高度動態的行為(例如大的跳躍和奔跑),並且不如最佳的手動設計控制器那樣穩定。(在5種情節中,每種方法總共進行15次試驗,現實世界中的機器人在6秒後踱步時平均下降;在5秒後向後小跑時平均下降;在旋轉時平均下降9秒)。對此,研究人員表示,將繼續改進控制器的魯棒性,並開發可以從其他運動數據源(如視頻剪輯)學習的框架。(雷鋒網雷鋒網)

注:本文由雷鋒網編譯自venturebeat

原文鏈接:

https://venturebeat.com/2020/04/03/googles-ai-learns-motions-from-dogs-applies-to-real-world-robot/


分享到:


相關文章: