03.06 谷歌研發會自學的機器人!跳過模擬環境,直接在真實環境中自學


谷歌研發會自學的機器人!跳過模擬環境,直接在真實環境中自學

智東西(公眾號:zhidxcom)編 | 王穎

智東西3月5日消息,最近谷歌一個名為Rainbow Dash的機器人通過AI模型訓練學會了走路,還能自由的左右旋轉。

Rainbow Dash是一款四足機器人,只需幾個小時的訓練就可以學會向前和向後行走。

來自谷歌、加州大學伯克利分校和佐治亞理工學院的研究人員已經發表了相關研究論文,描述了這種被稱為深度強化學習AI統計的技術。

谷歌研發會自學的機器人!跳過模擬環境,直接在真實環境中自學

一、在真實環境中學習行走

大多數強化學習部署都是在計算機模擬環境中進行的。然而,Rainbow Dash使用這種技術來學習在真實的物理環境中行走。

而且,Rainbow Dash能夠在沒有專門的教學機制的情況下進行操作,例如人工指導或帶有標籤的培訓數據。最終,Rainbow Dash成功地在多個表面上行走,包括柔軟的泡沫床墊和帶有明顯凹口的門墊。

Rainbow Dash使用的深度強化學習技術包括一種機器學習,在這種機器學習中,代理人與環境交互,通過反覆試驗進行學習。大多數強化學習使用案例都涉及電腦遊戲,在這些遊戲中,數字代理人學習如何通過玩遊戲來獲勝。

這種形式的機器學習明顯不同於傳統的監督學習或非監督學習,在傳統的監督學習模型中,機器學習模型需要標記的訓練數據來學習。 深度強化學習將強化學習和深度學習結合在一起,傳統機器學習的規模因為巨大的計算能力而大大擴展。

二、強化深度學習無法完全脫離人的干預

儘管研究團隊認為Rainbow Dash能夠自己學會走路,但人類的干預仍然在實現這一目標中發揮了重要作用。 為了防止機器人離開這個區域,研究人員必須創建邊界,機器人可以在該邊界內學習走路。

此外,研究人員還設計了特定的算法來防止機器人摔倒,其中一些算法專注於限制機器人的運動。為了防止諸如跌落損傷之類的事故發生,機器人強化學習通常在數字環境中進行,然後再將算法轉移到物理機器人上以保持其安全性。

沒有參與這項研究的斯坦福大學助理教授Chelsea Finn說:“將人員從學習過程中移除真的很難,通過允許機器人更自主地學習,機器人更接近於能夠在我們生活的現實世界中學習。”

論文鏈接:https://arxiv.org/pdf/2002.08550.pdf

原文來自:TechXplore


分享到:


相關文章: