簡介：使用OpenAI Gym進行強化學習

2018-09-22 08:39:48 不靠譜的貓

強化學習：簡介

從“強化”這個詞我們得到了建立具有正反饋的模式或信念系統的想法。通過強化學習，我們的目標是創建算法，幫助代理在特定環境中獲得最佳性能，並獲得適當的獎勵。讓我們考慮兩種情況，為RL提供抽象的洞察力。

積極和消極的獎勵會增加或減少該行為的傾向。最終在一段時間內在該環境中取得更好的結果。

讓我們首先定義agent 和environment 的概念，以瞭解有關RL的技術細節。environment 是agent 的世界，它通過對其執行的給定action來改變agent的狀態。agent是通過傳感器感知環境並使用執行器執行zctions的系統。在上述情況下，荷馬（左）和巴特（右）是我們的agents，世界是他們的環境。他們通過獲得快樂作為獎勵來對其採取actions並改善他們的存在狀態。在本文中，我們將設計我們自己的agent，該代理執行actions以通過OpenAI gym實現目標。

這有什麼不同？

主要有三種學習方式:監督學習，無監督學習和強化學習。讓我們看看他們的基本差異。在監督學習中，我們嘗試預測目標值或類，其中訓練的輸入數據已經分配了標籤。無監督學習使用未標記數據來查看模式以進行聚類，PCA或異常檢測。RL算法是優化程序，以找到獲得最大獎勵的最佳方法，即給予獲勝策略以達到目標。

考慮不同學習類型的用例

概念性理解

使用強化學習(RL)作為框架代理，通過某些動作來轉換代理的狀態，每個動作都與獎勵值相關聯。它還使用策略來確定將狀態映射到操作的下一個操作。策略可以是確定性的和隨機的，找到最優政策是關鍵。不同狀態下的不同動作將具有不同的獎勵值，例如在Pocket Tanks遊戲中的“Fire”命令，因為有時候保留一個戰略上良好的位置會更好。為了解決這個問題，我們需要將 state-action pair映射到獎勵的 Q-value（action-value）。現在定義環境在RL的上下文中作為函數，它在給定狀態下將動作作為輸入並返回與動作狀態對相關聯的新狀態和獎勵值。當環境變得複雜時，神經網絡能夠輕鬆地學習 state-action pairs獎勵，這被稱為Deep RL。

對於像Mario Q-learning這樣的遊戲，可以使用卷積神經網絡(CNN)損失近似值。

在這裡，我們將僅限於Q-Learning，其中Q將 state-action pairs 映射到最大值，並結合即時獎勵和未來獎勵，即對於新狀態，學習價值是獎勵加上未來的獎勵估計。將其量化為具有不同參數的等式，例如學習率和折扣因子，以減慢Agent的行動選擇。我們得出以下等式。

Q函數方程，說明給定對的最大預期累積獎勵

使用OpenAI Gym

為何選擇OpenAI gym？這個python庫為我們提供了大量的測試環境來處理RL代理的算法，這些算法具有用於編寫通用算法和測試它們的共享接口。讓我們開始只需鍵入pip install gym終端以便於安裝，您將獲得一些經典的環境來開始處理您的Agent。複製下面的Python代碼並運行它，您的環境將只加載經典控件作為默認值。

# 1. It renders instance for 500 timesteps, perform random actions
import gym
env = gym.make('Acrobot-v1')
env.reset()
for _ in range(500):
 env.render()
 env.step(env.action_space.sample())
# 2. To check all env available, uninstalled ones are also shown
from gym import envs 
print(envs.registry.all())

當對象通過動作與環境交互時，則step（...）函數返回observation（表示環境狀態），reward（前一個動作中的獎勵浮動），done（到達重置環境時間或目標實現），info：a dict for debugging，如果它包含環境最後狀態的原始概率，則可用於學習。看看它怎麼運作。另外，觀察Space類型的observation在不同環境下是如何不同的。

Python代碼如下：

import gym
env = gym.make('MountainCarContinuous-v0') # try for different environements
observation = env.reset()
for t in range(100):
 env.render() 

 print observation
 action = env.action_space.sample()
 observation, reward, done, info = env.step(action)
 print observation, reward, done, info
 if done:
 print("Finished after {} timesteps".format(t+1))
 break
 
[Output For Mountain Car Env:] 
[-0.56252328 0.00184034]
[-0.56081509 0.00170819] -0.00796802138459 False {}
 
[Output For CartPole Env:]
[ 0.1895078 0.55386028 -0.19064739 -1.03988221]
[ 0.20058501 0.36171167 -0.21144503 -0.81259279] 1.0 True {}
Finished after 52 timesteps

上面代碼中的action_space是什麼？action-space＆observation-space描述了要處理的特定環境的有效格式。只需看看返回的值。

import gym
env = gym.make('CartPole-v0')
print(env.action_space) #[Output: ] Discrete(2)
print(env.observation_space) # [Output: ] Box(4,)
env = gym.make('MountainCarContinuous-v0')
print(env.action_space) #[Output: ] Box(1,)
print(env.observation_space) #[Output: ] Box(2,)

離散值是非負的可能值，大於0或1相當於左右移動以達到笛卡兒平衡。Box表示n-dim數組。這些有助於編寫針對不同環境的通用代碼。我們可以簡單地檢查bounds .observation_space。將它們編碼到我們的通用算法中。

說明

我建議在瞭解OpenAI Gym的基礎知識後，您可以安裝Gym的所有依賴項，然後使用以下命令完全安裝gym。在這裡，我們使用python2.x你也可以使用python3.x只需更改下面的命令。

apt-get install -y python-numpy python-dev cmake zlib1g-dev libjpeg-dev xvfb libav-tools xorg-dev python-opengl libboost-all-dev libsdl2-dev swig
sudo pip install 'gym[all]'

讓我們開始構建我們的Q-table算法，它將嘗試解決FrozenLake 環境。在這種環境中，目標是在一個可能有一些洞的冰凍湖面上達到目標。以下是該算法描述表面的方式。

SFFF (S: starting point, safe)
FHFH (F: frozen surface, safe)
FFFH (H: hole, fall to your doom)
HFFG (G: goal, where the frisbee is located)

Q表包含映射到獎勵的state-action pairs。因此，我們將構建一個數組，該數組在算法運行期間映射不同的狀態和動作以獎勵值。它的維度將明確| state | x | actions |。讓我們把它寫在Q-learning算法的Python代碼中。

import gym
import numpy as np 
 
# 1. Load Environment and Q-table structure
env = gym.make('FrozenLake8x8-v0')
Q = np.zeros([env.observation_space.n,env.action_space.n])
# env.obeservation.n, env.action_space.n gives number of states and action in env loaded
 
# 2. Parameters of Q-leanring
eta = .628
gma = .9
epis = 5000
rev_list = [] # rewards per episode calculate
 
# 3. Q-learning Algorithm
  

for i in range(epis):
 # Reset environment
 s = env.reset()
 rAll = 0
 d = False
 j = 0
 #The Q-Table learning algorithm
 while j < 99:
 env.render()
 j+=1
 # Choose action from Q table
 a = np.argmax(Q[s,:] + np.random.randn(1,env.action_space.n)*(1./(i+1)))
 #Get new state & reward from environment
 s1,r,d,_ = env.step(a)
 #Update Q-Table with new knowledge
 Q[s,a] = Q[s,a] + eta*(r + gma*np.max(Q[s1,:]) - Q[s,a])
 rAll += r
 s = s1
 if d == True:
 break
 rev_list.append(rAll)
 env.render()
 
print "Reward Sum on all episodes " + str(sum(rev_list)/epis)
print "Final Values Q-Table"
print Q

如果您對通過環境找到解決方案的Agent模擬感興趣，請編寫此Python代碼段而不是Q-learning算法。

Frozen Lake Environment的可視化及以下Python代碼用於模擬

# Reset environment
s = env.reset()
d = False
# The Q-Table learning algorithm
while d != True:
 env.render()
 # Choose action from Q table
 a = np.argmax(Q[s,:] + np.random.randn(1,env.action_space.n)*(1./(i+1)))
 #Get new state & reward from environment
 s1,r,d,_ = env.step(a)
 #Update Q-Table with new knowledge
 Q[s,a] = Q[s,a] + eta*(r + gma*np.max(Q[s1,:]) - Q[s,a])
 s = s1
# Code will stop at d == True, and render one state before it

但是請記住，即使使用通用接口，不同環境的代碼複雜度也會不同。在上面的環境中，我們只有一個簡單的64狀態環境，只有很少的操作需要處理。我們可以很容易地將它們存儲在二維數組中進行獎勵映射。現在，讓我們考慮更復雜的環境案例，比如Atari envs，並考慮所需的方法。

env = gym.make("Breakout-v0")
env.action_space.n
Out[...]: 4
env.env.get_action_meanings()
Out[...]: ['NOOP', 'FIRE', 'RIGHT', 'LEFT']
env.observation_space
Out[...]: Box(210, 160, 3)

observation_space需要用210x160x3張量來表示，這使得我們的Q表變得更加複雜。此外，每個動作在k幀的持續時間內重複執行，其中k從{2,3,4}均勻地採樣。RGB通道中有33,600像素，值範圍為0-255，環境顯然已經變得過於複雜，簡單的QL方法在這裡無法使用。可以通過卷積神經網絡(CNN)進行深度學習來解決此問題的方法。

結論

現在，通過上面的教程，您可以獲得有關gym的基本知識以及開始使用它所需的一切。它也兼容TensorFlow。

分享到:

閱讀更多 不靠譜的貓 的文章

關鍵字: 強化學習機器學習

Java 簡介

Linux 防火牆 ufw 簡介

1-5-1 對 Power BI 中的數據建模-簡介

Magento 簡介

java.util.concurrent 簡介

知識總結-Java日誌框架Log4j、Log4j2、logback、slf4j、簡介

ipfs 簡介

RocketMQ 簡介

Android系統服務(SystemService)簡介

iOS設計模式與架構01-簡介

03.06 iOS設計模式與架構01-簡介

Linux Kernel學習001——簡介(一)

02.27 Linux Kernel學習001——簡介(一)

樹莓派軟路由 OpenWrt 簡介

Python3 簡介

MySQL數據庫基礎教程(一)-簡介

高性能線程間隊列 DISRUPTOR 簡介

docker基礎篇——簡介

ETL-Kettle學習筆記（入門，簡介，簡單操作）

OpenAI 發佈了一個程序化生成環境，可以評價智能體泛化技能學習

12.04 OpenAI 發佈了一個程序化生成環境，可以評價智能體泛化技能學習

Hadoop 生態之 MapReduce 及 Hive 簡介

分享一款開源的監控神器--Prometheus 簡介、架構及相關概念

OpenAI「假新聞」生成器GPT-2的最簡Python實現

APScheduler 簡介

iOS開發入門第9節：常用UI視圖(控件)簡介

Netty深入淺出系列：Netty 簡介

PyQt 簡介

PyAutoGUI 中文幫助文檔-簡介

spark系列（一）：簡介

TCP和UDP埠簡介

Burp Suite 簡介

FTP 簡介

網絡傳輸協議簡介

「Linux學習」第一章、Redhat Linux 簡介

Redis入門（一）：Redis 簡介

Python 的異步 IO之Asyncio 簡介

SVN 簡介、相關概念及優於CVS之處

【系統編程】並發伺服器（一）：簡介

商務「短信」簡介

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

簡介：使用OpenAI Gym進行強化學習

強化學習：簡介

最新進展和範圍

這有什麼不同？

概念性理解

使用OpenAI Gym

說明

結論

相關文章:

簡介：使用OpenAI Gym進行強化學習

強化學習：簡介

最新進展和範圍

這有什麼不同？

概念性理解

使用OpenAI Gym

說明

結論

相關文章:

Java 簡介

Linux 防火牆 ufw 簡介

1-5-1 對 Power BI 中的數據建模-簡介

Magento 簡介

java.util.concurrent 簡介

知識總結-Java日誌框架Log4j、Log4j2、logback、slf4j、簡介

ipfs 簡介

RocketMQ 簡介

Android系統服務(SystemService)簡介

iOS設計模式與架構01-簡介

03.06 iOS設計模式與架構01-簡介

Linux Kernel學習001——簡介(一)

02.27 Linux Kernel學習001——簡介(一)

樹莓派軟路由 OpenWrt 簡介

Python3 簡介

MySQL數據庫基礎教程(一)-簡介

高性能線程間隊列 DISRUPTOR 簡介

docker基礎篇——簡介

ETL-Kettle學習筆記（入門，簡介，簡單操作）

OpenAI 發佈了一個程序化生成環境，可以評價智能體泛化技能學習

12.04 OpenAI 發佈了一個程序化生成環境，可以評價智能體泛化技能學習

Hadoop 生態之 MapReduce 及 Hive 簡介

分享一款開源的監控神器--Prometheus 簡介、架構及相關概念

OpenAI「假新聞」生成器GPT-2的最簡Python實現

APScheduler 簡介

iOS開發入門第9節：常用UI視圖(控件)簡介

Netty深入淺出系列：Netty 簡介

PyQt 簡介

PyAutoGUI 中文幫助文檔-簡介

spark系列（一）：簡介

TCP和UDP埠 簡介

Burp Suite 簡介

FTP 簡介

網絡傳輸協議 簡介

「Linux學習」第一章、Redhat Linux 簡介

Redis入門（一）：Redis 簡介

Python 的異步 IO之Asyncio 簡介

SVN 簡介、相關概念及優於CVS之處

【系統編程】並發伺服器（一）：簡介

商務「短信」簡介

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

TCP和UDP埠簡介

網絡傳輸協議簡介

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪