如今,深度強化學習算法被認為是最有可能實現通用人工智能計算的方法。
由於深度強化學習算法融合了深度學習、統計、信息學、運籌學、概率論、優化等多個學科的內容,入門門檻高是事實。
雖然博文菌推薦過很多優秀的AI著作,但自己學起強化學習算法仍然是一團漿糊。看一眼讀過無數遍的馬爾可夫決策過程,像極了當年單詞書上的 abandon 。嘆口氣,又瞅了瞅鏡子中那張不太聰明的臉,陷入了沉思。
作為一個科技小編,其實我清楚我的問題出在哪裡(不是腦子)。
就像學游泳,只學理論而不下水,永遠學不會。
只懂原理而不進行編程訓練,那永遠也別想學會強化學習算法!
淦!道理說的頭頭是道,可如何動手,去哪動手?
問題就在這裡。市面上大部分強化學習著作的重心用在了描述算法原理上,至於算法的實現,講得並不多。所以才讓很多像博文菌這樣的新手,在一頁頁的苦讀後仍然很難入門。
不要把強化學習當作仇敵,除了死磕,一定存在更溫柔的學習方法!
溫柔的方法它來了!
今天介紹的這本書是2017年橫空出世的《深入淺出強化學習:原理入門》的姊妹篇 ——
《深入淺出強化學習:編程實戰》
這是一本以編程為主題的書!本書的寫作初衷就是:
通過編程實例幫助那些想要學習強化學習算法的同學更深入、更清楚地理解算法!
在學習過程中,我們可以根據書中的代碼進行動手編程,並修改程序中的超參數,然後根據運行結果不斷體會算法原理。慢慢會發現,過去一直糾結的難點在動手之後竟然迎刃而解了!
它的到來就是為了破解我們無法上手實踐的困境!
四大維度完善你的技能水平
實戰性強 以編程實戰為主線,旨在幫助讀者通過實戰更清晰地理解算法並快速應用。
系統全面 在馬爾可夫理論框架下,介紹了最基本的算法,涵蓋了基於值函數的算法,直接策略搜索方法,基於模型的強化學習方法等。
前沿技術分析 剖析了AlphaZero強大技術背後的深度強化學習原理,並介紹了它在五子棋上的具體實現。
操作性強 讀者可根據書中的代碼直接上手,並通過修改程序中的超參數,親自體會算法原理。
三位專家聯手出擊
本書由 郭憲、宋俊瀟、方勇純 三位老師精心打造
郭憲,南開大學人工智能學院講師,2016年1月獲得工學博士學位,併到南開大學從事博士後研究工作,2018年7月任教於南開大學至今。
宋俊瀟,香港科技大學博士,目前就職於啟元世界,擔任研究科學家,專注於決策智能相關算法的研究與開發。
方勇純,南開大學人工智能學院院長、教授、博士生導師,國家傑出青年基金獲得者(2013年),教育部長江學者特聘教授(2017年)。
清晰結構助力擊碎入門障礙
本書首先介紹馬爾可夫決策過程的理論框架,然後介紹基於動態規劃的策略迭代算法和值迭代算法,在此基礎上分3 篇介紹了目前強化學習算法中最基本的算法:
【第 1 篇】 基於值函數的強化學習算法 ,介紹了基於兩種策略評估方法的強化學習算法,以及如何將函數逼近的方法引入強化學習算法中。
【第 2 篇】 直接策略搜索方法 ,介紹了基本的策略梯度方法、AC 方法、PPO 方法和DDPG 算法。
【第 3 篇】 基於模型的強化學習方法 ,介紹了基於MPC 的方法、AlphaZero 算法基本原理及在五子棋上的具體實現細節。
閱讀更多 博文視點Broadview 的文章