文/ 頭號人工智能
迪士尼的機器人,不管剩幾條腿 (n>0) ,都能學會走路。
那麼,是怎麼學的?
研究團隊不用模擬器,直接在硬件上修煉深度強化學習 (DRL) 的策略。
真實世界,或許比模擬器要單調一些。不過,有物理支持的經驗,可能更加珍貴。
除了有清新脫俗的訓練環境,這隻機器人,也並不是一只機器人而已。
想要幾條腿,問過機器人嗎?
機器人的腿是模塊化的,就是說,你想給它裝上一條、兩條、三條腿,都可以。
嫌腿太多,拔掉一些也可以。反正只要有腿,機器人還可以重新學走路。
另外,機器人的腿還分三種,運動方式各不相同——
在分別介紹之前,先給各位一些方向感。
A腿,Roll-Pitch,橫軸加縱軸。
B腿,Yaw-Pitch,豎軸加縱軸。
C腿,Roll-Yaw-Pitch,橫軸加豎軸加縱軸。
於是,C腿比另外兩條腿粗壯一些,似乎也可以理解了。
如果按最多能裝六條腿來算,一共可以拼出多少種不同的機器人?
這樣一來,即便不是模擬器,也算多姿多彩了。
兩種DRL同步走
由於,不知道機器人什麼時候,就會多條胳膊少條腿,迪士尼團隊準備了兩種深度強化學習算法。
一是
TRPO (信賴域策略優化) 算法,沿用既定策略 (On-Policy) 的批量學習方法,適合優化大型非線性的策略。二是DDPG (深度確定性策略梯度) 算法,用“演員-評論家 (Actor-Critic) ”的方法,優化策略。
不同的算法,不同的姿勢
那麼,在三次元學習過程中優化的策略,有多優秀?
按照腿的數量,分別來看一下。
一條腿
圖中下者,是用TRPO學習完畢的A腿,與沒有學過的A腿相比,走路姿勢已經明顯不同,速度也真的加快了一點點。
兩條腿
這是兩條B腿在TRPO薰陶之下形成的姿勢,輕快地觸地,輕快地彈起。
這同樣是兩條B腿,但算法換成了DDPG,姿勢又完全不同了,好像慵懶地向前翻滾。
三條腿
這次,機器人長了三條B腿。有了TRPO的加成,它用歡脫地節奏點著地,和雙腿TRPO的操作很相似。
總體看上去,用TRPO訓練過後,機器人會比較活躍,用DDPG修煉之後,機器人就有了佛系屬性。
不管它有怎樣的個性,研究人員都很開心。畢竟,那表示深度強化學習算法,是有效的。一看就知道,是誰帶出的徒弟。
每日分享互聯網趣聞,福利、思維、模式
閱讀更多 互聯網新浪潮 的文章