人工智慧發展到這個程度了:拔掉機器人的一條腿,它還能學走路?

人工智能發展到這個程度了:拔掉機器人的一條腿,它還能學走路?

文/ 頭號人工智能

迪士尼的機器人,不管剩幾條腿 (n>0) ,都能學會走路。

那麼,是怎麼學的?

研究團隊不用模擬器,直接在硬件上修煉深度強化學習 (DRL) 的策略

真實世界,或許比模擬器要單調一些。不過,有物理支持的經驗,可能更加珍貴。

除了有清新脫俗的訓練環境,這隻機器人,也並不是只機器人而已。

想要幾條腿,問過機器人嗎?

人工智能發展到這個程度了:拔掉機器人的一條腿,它還能學走路?

機器人的腿是模塊化的,就是說,你想給它裝上一條、兩條、三條腿,都可以。

嫌腿太多,拔掉一些也可以。反正只要有腿,機器人還可以重新學走路。

另外,機器人的腿還分三種,運動方式各不相同——

在分別介紹之前,先給各位一些方向感。

人工智能發展到這個程度了:拔掉機器人的一條腿,它還能學走路?

A腿,Roll-Pitch,橫軸加縱軸。

人工智能發展到這個程度了:拔掉機器人的一條腿,它還能學走路?

B腿,Yaw-Pitch,豎軸加縱軸。

人工智能發展到這個程度了:拔掉機器人的一條腿,它還能學走路?

C腿,Roll-Yaw-Pitch,橫軸加豎軸加縱軸。

人工智能發展到這個程度了:拔掉機器人的一條腿,它還能學走路?

於是,C腿比另外兩條腿粗壯一些,似乎也可以理解了。

如果按最多能裝六條腿來算,一共可以拼出多少種不同的機器人?

人工智能發展到這個程度了:拔掉機器人的一條腿,它還能學走路?

這樣一來,即便不是模擬器,也算多姿多彩了。

兩種DRL同步走

由於,不知道機器人什麼時候,就會多條胳膊少條腿,迪士尼團隊準備了兩種深度強化學習算法。

人工智能發展到這個程度了:拔掉機器人的一條腿,它還能學走路?

一是

TRPO (信賴域策略優化) 算法,沿用既定策略 (On-Policy) 的批量學習方法,適合優化大型非線性的策略。

二是DDPG (深度確定性策略梯度) 算法,用“演員-評論家 (Actor-Critic) ”的方法,優化策略。

不同的算法,不同的姿勢

那麼,在三次元學習過程中優化的策略,有多優秀?

按照腿的數量,分別來看一下。

一條腿

人工智能發展到這個程度了:拔掉機器人的一條腿,它還能學走路?

圖中下者,是用TRPO學習完畢的A腿,與沒有學過的A腿相比,走路姿勢已經明顯不同,速度也真的加快了一點點。

兩條腿

人工智能發展到這個程度了:拔掉機器人的一條腿,它還能學走路?

這是兩條B腿在TRPO薰陶之下形成的姿勢,輕快地觸地,輕快地彈起。

人工智能發展到這個程度了:拔掉機器人的一條腿,它還能學走路?

這同樣是兩條B腿,但算法換成了DDPG,姿勢又完全不同了,好像慵懶地向前翻滾。

三條腿

人工智能發展到這個程度了:拔掉機器人的一條腿,它還能學走路?

這次,機器人長了三條B腿。有了TRPO的加成,它用歡脫地節奏點著地,和雙腿TRPO的操作很相似

總體看上去,用TRPO訓練過後,機器人會比較活躍,用DDPG修煉之後,機器人就有了佛系屬性。

不管它有怎樣的個性,研究人員都很開心。畢竟,那表示深度強化學習算法,是有效的。一看就知道,是誰帶出的徒弟。

每日分享互聯網趣聞,福利、思維、模式


分享到:


相關文章: