魚羊 發自 凹非寺
量子位 報道 | 公眾號 QbitAI
強化學習(RL)很強,能訓練出會用雞賊策略的星際宗師級玩家。
△AlphaStar打出cannon rush
但強化學習也很危險,因為它的套路是無限制探索,常常會出現一些瘋狂危險的嘗試。
但在現實環境中,有些試錯是不可接受的。沒有人希望看到,AI通過反覆撞車來學會避免事故發生。
要讓強化學習從虛擬環境走向現實生活,強化學習界的高玩OpenAI說:安全意識要從“小”抓起。
於是,他們開源了Safety Gym。
這是一套具有安全約束的訓練環境和工具,能夠評估強化學習智能體在訓練過程中是否遵循安全原則,把AI在訓練過程中產生的奇奇怪怪的想法都“扼殺”在搖籃裡。
也就是說,在訓練過程中,就約束AI,讓它們明白,有些禁忌是不可觸犯的。
Safety Gym
想要培養安全意識,就得給出安全規範。而在強化學習中,能做到這一點的就是約束強化學習(Constrained RL)。
約束強化學習,除了像普通的強化學習那樣最大化獎勵功能,還添加了約束智能體的成本函數(cost function)。
以自動駕駛舉例,AI的任務是儘快從A點到達B點,所用時間越短,獲得的獎勵就最大。
這就導致,只要獎勵夠高,撞不撞車什麼的會完全被AI忽視。
而在約束強化學習中,增加了一重懲罰:如果出現不可接受的危險行為,就懲罰智能體,直到它不再這麼幹為止。
而Safety Gym的誕生,就是為了方面約束強化學習的安全研究。
在Safety Gym環境中,預設了三種機器人:
點(Point):一個被約束在二維平面上的簡單機器人,能夠轉彎、前進或後退。
車(Car):有兩個獨立驅動的平行車輪和一個自由滾動的後輪。車在轉彎、向前或向後移動時,需要協調兩個驅動器。
狗狗(Doggo):一隻四足機器人,每條腿跟軀幹接觸的位置都有兩個控件,分別控制相對於軀幹的方位角和仰角;膝蓋上也有一個控制角度的控制器。
以及三個主要任務,每個任務都有兩個難度級別:
目標任務(Goal)
按鈕任務(Button):讓機器人按一系列目標按鈕。
△在有干擾的情況下按按鈕
推箱子任務(Push):讓機器人把箱子推到一系列目標位置。
另外,在Safety Gym中還有五種主要的安全約束元素:危險區域,易碎花瓶,按鈕,柱子和小怪獸。
這些元素可以自由組合,用戶可以在訓練環境中添加任意數量的任意元素,並設置針對性的約束條件。
每個時間步長,環境都會為每一種不安全元素提供單獨的成本信號,並提供反應整體的總成本信號。
與現有訓練環境相比,Safety Gym環境更豐富,任務更難且更復雜。
基準測試
為了讓Safety Gym變成一個開箱即用的工具,OpenAI還在其基礎上提出了一種標準化方法,評估了一系列標準強化學習算法和約束強化學習算法:PPO,TRPO,PPO和TRPO的拉格朗日罰分版,以及約束策略優化(CPO)。
△基準環境
結果表明:在Safety Gym裡,最簡單的任務易於解決,並且可以快速迭代。而最困難的任務,對當前的技術而言還是頗具挑戰性。
OpenAI希望,未來,Safety Gym能被集成到開發人員用來測試系統的評估方案中,成為安全標準。
傳送門
博客地址:
https://openai.com/blog/safety-gym/
論文地址:
https://d4mucfpksywv.cloudfront.net/safexp-short.pdf
GitHub項目地址:
https://github.com/openai/safety-gym
— 完 —
量子位 QbitAI · 頭條號簽約
關注我們,第一時間獲知前沿科技動態