不撞車，AI也能在強化學習中學會避免事故：OpenAI開源最新RL環境_科技 _ 頭條網

魚羊發自凹非寺
量子位報道 | 公眾號 QbitAI

強化學習（RL）很強，能訓練出會用雞賊策略的星際宗師級玩家。

△AlphaStar打出cannon rush

但強化學習也很危險，因為它的套路是無限制探索，常常會出現一些瘋狂危險的嘗試。

但在現實環境中，有些試錯是不可接受的。沒有人希望看到，AI通過反覆撞車來學會避免事故發生。

要讓強化學習從虛擬環境走向現實生活，強化學習界的高玩OpenAI說：安全意識要從“小”抓起。

於是，他們開源了Safety Gym。

這是一套具有安全約束的訓練環境和工具，能夠評估強化學習智能體在訓練過程中是否遵循安全原則，把AI在訓練過程中產生的奇奇怪怪的想法都“扼殺”在搖籃裡。

也就是說，在訓練過程中，就約束AI，讓它們明白，有些禁忌是不可觸犯的。

Safety Gym

想要培養安全意識，就得給出安全規範。而在強化學習中，能做到這一點的就是約束強化學習（Constrained RL）。

約束強化學習，除了像普通的強化學習那樣最大化獎勵功能，還添加了約束智能體的成本函數（cost function）。

以自動駕駛舉例，AI的任務是儘快從A點到達B點，所用時間越短，獲得的獎勵就最大。

這就導致，只要獎勵夠高，撞不撞車什麼的會完全被AI忽視。

而在約束強化學習中，增加了一重懲罰：如果出現不可接受的危險行為，就懲罰智能體，直到它不再這麼幹為止。

而Safety Gym的誕生，就是為了方面約束強化學習的安全研究。

在Safety Gym環境中，預設了三種機器人：

點（Point）：一個被約束在二維平面上的簡單機器人，能夠轉彎、前進或後退。

車（Car）：有兩個獨立驅動的平行車輪和一個自由滾動的後輪。車在轉彎、向前或向後移動時，需要協調兩個驅動器。

狗狗（Doggo）：一隻四足機器人，每條腿跟軀幹接觸的位置都有兩個控件，分別控制相對於軀幹的方位角和仰角；膝蓋上也有一個控制角度的控制器。

以及三個主要任務，每個任務都有兩個難度級別：

目標任務（Goal）

：讓機器人移動到一系列目標位置。

按鈕任務（Button）：讓機器人按一系列目標按鈕。

△在有干擾的情況下按按鈕

推箱子任務（Push）：讓機器人把箱子推到一系列目標位置。

另外，在Safety Gym中還有五種主要的安全約束元素：危險區域，易碎花瓶，按鈕，柱子和小怪獸。

這些元素可以自由組合，用戶可以在訓練環境中添加任意數量的任意元素，並設置針對性的約束條件。

每個時間步長，環境都會為每一種不安全元素提供單獨的成本信號，並提供反應整體的總成本信號。

與現有訓練環境相比，Safety Gym環境更豐富，任務更難且更復雜。

基準測試

為了讓Safety Gym變成一個開箱即用的工具，OpenAI還在其基礎上提出了一種標準化方法，評估了一系列標準強化學習算法和約束強化學習算法：PPO，TRPO，PPO和TRPO的拉格朗日罰分版，以及約束策略優化（CPO）。

△基準環境

結果表明：在Safety Gym裡，最簡單的任務易於解決，並且可以快速迭代。而最困難的任務，對當前的技術而言還是頗具挑戰性。

OpenAI希望，未來，Safety Gym能被集成到開發人員用來測試系統的評估方案中，成為安全標準。

傳送門

博客地址：
https://openai.com/blog/safety-gym/

論文地址：
https://d4mucfpksywv.cloudfront.net/safexp-short.pdf

GitHub項目地址：
https://github.com/openai/safety-gym

— 完 —

量子位 QbitAI · 頭條號簽約

關注我們，第一時間獲知前沿科技動態

Safety Gym

基準測試

傳送門

相關文章:

以 AI 對抗 AI：“守護者”楊勇和騰訊安平的進化

154 萬 AI 開發者用數據告訴你，中國 AI 如何才能彎道超車？

讓 AI 訓練 AI：揭祕阿里、浙大的 AI 訓練師助手

BAT 三位醫療 AI 大佬出山，覆盤 AI 戰疫往事

今晚開課丨BAT 三位醫療 AI 大佬出山，覆盤 AI 戰疫往事

ai，ai，ai

AI 大牛沈向洋就職清華演講全錄：人類對 AI 如何做決定一無所知

03.06 AI 大牛沈向洋就職清華演講全錄：人類對 AI 如何做決定一無所知

02.28 塵埃落定！AI 大牛賈佳亞離開騰訊優圖，創立思謀科技，投身差異化 AI 創業

NVIDIA AI 助力初創公司通過 AI 設計和控制建築物

AI 沒能讓人類失業，搞 AI 的人先失業了

飛天 AI 平臺重磅發佈！阿里擁抱 AI 這五年

AI 遇冷？斯坦福年度 AI 報告來揭祕

尋找 AI 落地之王：2019 AI 最佳成長榜正式啟動！

李開復：AI 和互聯網同樣偉大，未來 AI 是工程師必備技能

AI Insight：放棄幻想，搞 AI 必須過數學關

海信全面 AI 電視，AI 體驗全面升級

創新 AI 力量，雲知聲獲智東西 2018 AI 年度生產力創新獎

思必馳發佈低功耗 AI 芯片 AI 交互智能生態佈局初顯規模

思必馳發佈始終在線、低功耗 AI 芯片，AI 交互智能生態佈局初顯規模

“AI+”時代｜以數據為核，AI 正重塑垂直行業

業界｜專訪「AI 教父」吳恩達：AI 將改變所有人類工作，下次寒冬不會到來

他曾說要讓機器人考上清華北大，如今陷入「AI」造假風波

亞馬遜 AI 在簡歷篩選中歧視女性？AI 犯錯不是第一次了

AI、石墨烯、超廣角、超微距……，華爲Mate 20即將來襲

堅守普惠 AI，看華爲雲如何讓 AI 落地！

09.21 快手 AI 技術副總裁鄭文：快手在內容生產&內容理解上用到的 AI 技術

09.18 從“AI+”到“+AI”，AI需發展必須有而非感覺好的產品

商湯科技湯曉鷗：不存在 AI 行業，只有 AI+ 行業｜2018年世界人工智慧大會

做底層 AI 框架和做上層 AI 應用，哪個對自己的學術水平（或綜合能力）促進更大？

AI 晶片、L4 量產車、智能小程序，All in AI 一年後的百度交出了怎樣的成績單？

李彥宏：百度爲 AI 投入年營收的15%，推出首款無人駕駛大巴與全功能 AI 晶片

榮耀10 GT版本正式發布：榮耀10 GT版手機什麼時候發售？

「Ai」資本追著“AI+教育”跑 很多人都慌了

VC筆記7：無人駕駛百度和小三的撕，景馳，pony.ai，roadstar.ai

AI 開發者高薪太誘人？請收下這份給國內開發者轉型 AI 指南

菜鳥推平臺級 AI 產品，華為攜手科大訊飛，共同做強 AI 生態

「資訊」震撼！AI 終於來了！AI 要來南寧了！可，誰是AI？

AI 可翻譯嬰兒哭聲；藥房請來人工智慧看病抓藥｜一周 AI 新聞

發佈首款物聯網 AI 芯片雨燕，雲知聲做 AI 芯片的邏輯和優勢是什麼？

波士頓動力機器人會跑了；AI+無人機助力長城修復｜一周 AI 新聞

AI 破解梵蒂岡祕密檔案；智能手錶讓手臂變觸控螢幕｜一周 AI 新聞

技術人創業者夏粉：用 AI 創造 AI

用設備和場景倒推 AI 技術進步，智能手機+IoT 是 AI 的無限生態

百度：不僅All in AI，實際 AI 早已 in All

小米太無恥了。

蹭熱點！說說我理解的手機包裝盒事件。

蘋果公司正式發佈iPhone SE二代手機

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

幹翻華為P40系列 榮耀30也玩中

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

蘋果發佈新款iPhoneSE，3299元起售

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

值得收藏！三類賣家三種選品方案，總有適合你的一個……

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

馬雲終於要辭職了，留下的話句句觸動人心

等等，明年5G手機將迎來大降價

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？

血戰「在線辦公」，阿里、騰訊、字節、華為的底牌與大殺器

2020年最強拍照旗艦來了 華為P40系列多項業界首創 香！

今天聊一聊直播

「Ai」資本追著“AI+教育”跑很多人都慌了

幹翻華為P40系列榮耀30也玩中

2020年最強拍照旗艦來了華為P40系列多項業界首創香！