不撞車,AI也能在強化學習中學會避免事故:OpenAI開源最新RL環境

魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI

強化學習(RL)很強,能訓練出會用雞賊策略的星際宗師級玩家。

不撞車,AI也能在強化學習中學會避免事故:OpenAI開源最新RL環境

AlphaStar打出cannon rush

但強化學習也很危險,因為它的套路是無限制探索,常常會出現一些瘋狂危險的嘗試。

不撞車,AI也能在強化學習中學會避免事故:OpenAI開源最新RL環境

但在現實環境中,有些試錯是不可接受的。沒有人希望看到,AI通過反覆撞車來學會避免事故發生。

要讓強化學習從虛擬環境走向現實生活,強化學習界的高玩OpenAI說:安全意識要從“小”抓起。

於是,他們開源了Safety Gym

這是一套具有安全約束的訓練環境和工具,能夠評估強化學習智能體在訓練過程中是否遵循安全原則,把AI在訓練過程中產生的奇奇怪怪的想法都“扼殺”在搖籃裡。

也就是說,在訓練過程中,就約束AI,讓它們明白,有些禁忌是不可觸犯的。

Safety Gym

想要培養安全意識,就得給出安全規範。而在強化學習中,能做到這一點的就是約束強化學習(Constrained RL)

約束強化學習,除了像普通的強化學習那樣最大化獎勵功能,還添加了約束智能體的成本函數(cost function)。

以自動駕駛舉例,AI的任務是儘快從A點到達B點,所用時間越短,獲得的獎勵就最大。

這就導致,只要獎勵夠高,撞不撞車什麼的會完全被AI忽視。

而在約束強化學習中,增加了一重懲罰:如果出現不可接受的危險行為,就懲罰智能體,直到它不再這麼幹為止。

而Safety Gym的誕生,就是為了方面約束強化學習的安全研究。

在Safety Gym環境中,預設了三種機器人:

點(Point):一個被約束在二維平面上的簡單機器人,能夠轉彎、前進或後退。

不撞車,AI也能在強化學習中學會避免事故:OpenAI開源最新RL環境

車(Car):有兩個獨立驅動的平行車輪和一個自由滾動的後輪。車在轉彎、向前或向後移動時,需要協調兩個驅動器。

不撞車,AI也能在強化學習中學會避免事故:OpenAI開源最新RL環境

狗狗(Doggo):一隻四足機器人,每條腿跟軀幹接觸的位置都有兩個控件,分別控制相對於軀幹的方位角和仰角;膝蓋上也有一個控制角度的控制器。

不撞車,AI也能在強化學習中學會避免事故:OpenAI開源最新RL環境

以及三個主要任務,每個任務都有兩個難度級別:

目標任務(Goal):讓機器人移動到一系列目標位置。

不撞車,AI也能在強化學習中學會避免事故:OpenAI開源最新RL環境

按鈕任務(Button):讓機器人按一系列目標按鈕。

不撞車,AI也能在強化學習中學會避免事故:OpenAI開源最新RL環境

在有干擾的情況下按按鈕

推箱子任務(Push):讓機器人把箱子推到一系列目標位置。

不撞車,AI也能在強化學習中學會避免事故:OpenAI開源最新RL環境

另外,在Safety Gym中還有五種主要的安全約束元素:危險區域,易碎花瓶,按鈕,柱子和小怪獸。

不撞車,AI也能在強化學習中學會避免事故:OpenAI開源最新RL環境

這些元素可以自由組合,用戶可以在訓練環境中添加任意數量的任意元素,並設置針對性的約束條件。

每個時間步長,環境都會為每一種不安全元素提供單獨的成本信號,並提供反應整體的總成本信號。

與現有訓練環境相比,Safety Gym環境更豐富,任務更難且更復雜。

基準測試

為了讓Safety Gym變成一個開箱即用的工具,OpenAI還在其基礎上提出了一種標準化方法,評估了一系列標準強化學習算法和約束強化學習算法:PPO,TRPO,PPO和TRPO的拉格朗日罰分版,以及約束策略優化(CPO)。

不撞車,AI也能在強化學習中學會避免事故:OpenAI開源最新RL環境

基準環境

結果表明:在Safety Gym裡,最簡單的任務易於解決,並且可以快速迭代。而最困難的任務,對當前的技術而言還是頗具挑戰性。

不撞車,AI也能在強化學習中學會避免事故:OpenAI開源最新RL環境

OpenAI希望,未來,Safety Gym能被集成到開發人員用來測試系統的評估方案中,成為安全標準。

傳送門

博客地址:
https://openai.com/blog/safety-gym/

論文地址:
https://d4mucfpksywv.cloudfront.net/safexp-short.pdf

GitHub項目地址:
https://github.com/openai/safety-gym

量子位 QbitAI · 頭條號簽約

關注我們,第一時間獲知前沿科技動態


分享到:


相關文章: