強化學習:改變計算機決策方式的算法


強化學習:改變計算機決策方式的算法

過去十年的技術在很大程度上是由深度監督學習(DL)的出現定義的。大規模廉價數據的可用性、計算能力和研究興趣使它成為大多數模式識別問題中事實上的算法流派。社交媒體上的人臉識別、網站上的產品推薦、語音助手如谷歌Assistant、Alexa和Siri都是DL支持的例子。

深度學習的問題在於,導致深度學習興起的資源,也導致了不平等。如今,初創公司很難通過更好的研究能力或更好的數據,在深度學習方面打敗蘋果(Apple)、谷歌、亞馬遜(Amazon)和微軟(Microsoft)等“大型科技公司”。

我預測,在本世紀20年代,我們將看到這種不平等被打破。這是由於深度強化學習(Deep Reinforcement Learning, RL)作為解決此類問題的一種突出算法的出現。

RL本質上是模仿人類的行為。讓我們以一個孩子學習騎自行車為例。這孩子不知道該採取什麼步驟。但它試圖在不摔倒的情況下騎更長時間的自行車,並在這個過程中學習。你不能解釋你如何騎自行車,只能說你會騎。RL的工作方式與此類似。給定一個環境,它學會通過多次嘗試和錯誤來優化一個目標。

要更深入地瞭解技術,RL有三個組成部分:狀態、策略和操作。狀態是對當前環境的描述。該策略對狀態進行評估,併為算法找到目標集的最優路徑。

行動是策略所建議的步驟,也是算法為達到目標所採取的步驟。RL算法迭代地遍歷狀態,使用它們的策略生成操作,運行操作,並根據環境的反饋(稱為獎勵)優化策略,以提供更有目標的操作。

通過這種方式,RL允許我們解決許多問題,而實際上不需要像傳統DL模型那樣大量的監督/標記數據——因為它不斷地生成自己的數據。當然,需要注意的是,RL不能解決與DL相同的問題,但是它們之間有很強的交集。通過這種方式,RL可以消除競爭,因為數據不一定是以前的護城河。

迄今為止,我們所見過的RL最大的應用是在遊戲中——AlphaGo Zero, Deepmind的專家級人工智能來玩圍棋;DeepMind努力掌握一款名為AlphaStar的多智能體遊戲,如《星際爭霸》;OpenAI的研究表明,多個代理在玩捉迷藏。-這些都是RL的槓桿。

在未來,我看到RL改變了複雜機器的控制系統的構建方式。機器將利用RL進行三維路徑和運動規劃。RL將改進具有會話接口的系統,利用每個會話來改進策略。RL可能被用於非常複雜的環境中,具有低先例數據的大多數決策過程。這將是RL的十年。


分享到:


相關文章: