帶你動手編程的強化學習著作,每行代碼都是它的溫柔!

如今,深度強化學習算法被認為是最有可能實現通用人工智能計算的方法。

由於深度強化學習算法融合了深度學習、統計、信息學、運籌學、概率論、優化等多個學科的內容,入門門檻高是事實。

帶你動手編程的強化學習著作,每行代碼都是它的溫柔!

雖然博文菌推薦過很多優秀的AI著作,但自己學起強化學習算法仍然是一團漿糊。看一眼讀過無數遍的馬爾可夫決策過程,像極了當年單詞書上的 abandon 。嘆口氣,又瞅了瞅鏡子中那張不太聰明的臉,陷入了沉思。

帶你動手編程的強化學習著作,每行代碼都是它的溫柔!

作為一個科技小編,其實我清楚我的問題出在哪裡(不是腦子)。

就像學游泳,只學理論而不下水,永遠學不會。

只懂原理而不進行編程訓練,那永遠也別想學會強化學習算法!

淦!道理說的頭頭是道,可如何動手,去哪動手?

問題就在這裡。市面上大部分強化學習著作的重心用在了描述算法原理上,至於算法的實現,講得並不多。所以才讓很多像博文菌這樣的新手,在一頁頁的苦讀後仍然很難入門。

不要把強化學習當作仇敵,除了死磕,一定存在更溫柔的學習方法!

帶你動手編程的強化學習著作,每行代碼都是它的溫柔!


溫柔的方法它來了!

今天介紹的這本書是2017年橫空出世的《深入淺出強化學習:原理入門》的姊妹篇 ——

《深入淺出強化學習:編程實戰》

帶你動手編程的強化學習著作,每行代碼都是它的溫柔!

這是一本以編程為主題的書!本書的寫作初衷就是:

通過編程實例幫助那些想要學習強化學習算法的同學更深入、更清楚地理解算法!

在學習過程中,我們可以根據書中的代碼進行動手編程,並修改程序中的超參數,然後根據運行結果不斷體會算法原理。慢慢會發現,過去一直糾結的難點在動手之後竟然迎刃而解了!

它的到來就是為了破解我們無法上手實踐的困境!


四大維度完善你的技能水平


實戰性強 以編程實戰為主線,旨在幫助讀者通過實戰更清晰地理解算法並快速應用。

系統全面

在馬爾可夫理論框架下,介紹了最基本的算法,涵蓋了基於值函數的算法,直接策略搜索方法,基於模型的強化學習方法等。

前沿技術分析 剖析了AlphaZero強大技術背後的深度強化學習原理,並介紹了它在五子棋上的具體實現。

操作性強 讀者可根據書中的代碼直接上手,並通過修改程序中的超參數,親自體會算法原理。


三位專家聯手出擊


本書由 郭憲、宋俊瀟、方勇純 三位老師精心打造

郭憲,南開大學人工智能學院講師,2016年1月獲得工學博士學位,併到南開大學從事博士後研究工作,2018年7月任教於南開大學至今。

宋俊瀟,香港科技大學博士,目前就職於啟元世界,擔任研究科學家,專注於決策智能相關算法的研究與開發。

方勇純,南開大學人工智能學院院長、教授、博士生導師,國家傑出青年基金獲得者(2013年),教育部長江學者特聘教授(2017年)。


清晰結構助力擊碎入門障礙


本書首先介紹馬爾可夫決策過程的理論框架,然後介紹基於動態規劃的策略迭代算法和值迭代算法,在此基礎上分3 篇介紹了目前強化學習算法中最基本的算法:

【第 1 篇】 基於值函數的強化學習算法 ,介紹了基於兩種策略評估方法的強化學習算法,以及如何將函數逼近的方法引入強化學習算法中。

【第 2 篇】 直接策略搜索方法

,介紹了基本的策略梯度方法、AC 方法、PPO 方法和DDPG 算法。

【第 3 篇】 基於模型的強化學習方法 ,介紹了基於MPC 的方法、AlphaZero 算法基本原理及在五子棋上的具體實現細節。



分享到:


相關文章: