谷歌發佈新人工智能擴展,將使機器人更像人類

在本週發表在預印本服務器上的一篇論文中,Google Brain、Google X和加州大學伯克利分校的研究人員描述了現有人工智能方法的一個擴展,使一個代理(例如機器人)能夠在執行前一個操作時決定要執行哪個操作。其思想是,在模仿一個人或動物行為之後,對一個代理的行為建模,將在未來使系統更加完善且不易發生故障;簡單來說,就是讓機器人的行為更像人類。

谷歌發佈新人工智能擴展,將使機器人更像人類

如上圖,研究人員在機器人手臂上進行了實驗,他們的任務是從垃圾箱中抓取和移動各種物體。他們說,他們的框架取得了與基線阻塞模型相當的抓取成功,但就衡量策略總執行時間的策略持續時間而言,它比阻塞模型快49%。此外,併發模型能夠執行比基線更平滑和更快的軌跡。

研究人員指出,雖然人工智能算法在電子遊戲、機器人抓取和操作任務中取得了成功,但大多數人工智能算法使用的是一種“阻塞-觀察-思考-行動”範式——一個智能體假設其環境在“思考”時保持靜止,以便其動作將在計算它們的狀態上執行。這在模擬中是正確的,但在現實世界中則不然,在現實世界中,當代理處理觀察結果並計劃其下一步操作時,環境狀態會演變。

谷歌發佈新人工智能擴展,將使機器人更像人類

該團隊的解決方案是一個框架,可以在機器學習環境中處理併發環境。它利用了通過獎勵驅動機器人朝著目標前進的標準的強化學習公式,其中機器人從一組可能的狀態接收一個狀態,並根據策略從一組可能的操作中選擇一個操作。環境返回從過渡分佈和獎勵中採樣的下一個狀態,這樣機器人就學會了最大化每個狀態的期望回報。

除了前一個動作之外,還有兩個額外的特性:動作選擇時間和走動向量(VTG),有助於封裝併發知識。研究人員將VTG定義為在測量環境狀態的瞬間執行的最後一個動作。並發動作環境在執行前一個動作和捕獲狀態之後的捕獲狀態。策略選擇一個操作並執行它,而不管前一個操作是否已完成,即使這需要中斷前一個操作。

谷歌發佈新人工智能擴展,將使機器人更像人類

併發方法可能允許在動態環境中進行機器人控制,在這種環境中,機器人無法在計算動作之前停止環境。在這些情況下,機器人必須同時思考和行動。

這項工作是在谷歌領導的一項研究中完成的,該研究描述了一個從動物的動作中學習的人工智能系統,以賦予機器人更大的靈活性。我相信他們的方法可以促進機器人的發展,使機器人能夠完成更多的現實世界中的任務。


分享到:


相關文章: