探索深度強化學習在股票領域的盈利策略

隨著GPU計算能力的增強和深層神經網絡的突破,人工智能在很多尚未探索的領域獲得了應用機會。2017 年,深度學習開始影響金融業。如果你有相關專業的背景,金融領域已經向你打開了大門。

近年來雖然深度學習在理論和實踐上都取得了重大的進步,但是在金融界的應用卻很少有公開的報道。本頭條號——策維推演的宗旨是探索深度強化學習在股票領域的盈利策略。本文僅介紹基礎概念,歡迎後續關注!

強化學習是什麼

強化學習是多學科多領域交叉的一個產物,它的本質就是解決“決策(decision making)”問題,即學會自動進行決策。在神經科學中,人類研究人腦並發現了一種遵循強化算法的獎勵系統。在心理學中,人們研究的經典條件反射和操作性條件反射,也可以被認為是一個強化問題。類似的,在經濟學中我們研究理性博弈論;在數學中我們研究運籌學;在工程學中我們研究優化控制。所有的這些問題都可以被認為一種強化學習問題——它們研究同一個主題,即為了實現最佳結果而優化決策。這所有的問題最終都歸結為一個問題,人為什麼能夠做出最優決策,且人類是如何做到的。

探索深度強化學習在股票領域的盈利策略

深度學習與強化學習

深度學習的出現對機器學習中的許多領域產生了重大影響,大大提高了物體檢測、語音識別和語言翻譯等任務的state-of-the-art成績。深度學習最重要的特點在於,深度神經網絡可以自動發現高維度數據(例如,圖像、文本和音頻)的緊湊的低維表示(特徵)。通過將推演偏差(inductive biases)融入到神經網絡架構中,特別是融入到層次化的表示中。

運用深度學習法訓練出具有邏輯分析能力的機器,發揮機器的速度和理性優勢。DRL算法已被應用於各種各樣的問題,例如機器人技術,創建能夠進行元學習(“學會學習”learning to learn)的智能體,這種智能體能泛化處理以前從未見過的複雜視覺環境。

強化學習在股票上的應用例子

股票交易是一個序列決策過程,期間要做出很多的決策,每一個決策動作都要根據當前的股市狀態來決定是買,是賣還是觀望。假設我們需要在一個單位時間內買入一定數量的股票,我們希望買入的總價儘可能的小。強化學習系統接受環境狀態的輸入s,也就是剩餘的訂單量和剩餘時間,系統輸出相應的最佳動作a,也就是最佳的限價單價格。隨著限價單的執行,剩餘的訂單量會減少,而且剩餘時間也會減少,環境就變遷到了新的狀態s’。系統接收新的環境狀態輸入s’,同時將上一個限價單的執行成本,成交成本(成交部分)作為系統的瞬時獎懲反饋r也反饋給強化學習系統。對於強化學習系統來說,目標就是學習一個多階段的行為策略π:S→A。系統能夠根據剩餘訂單量以及剩餘時間,確定當前的最佳的限價單價格,從而使全部訂單成交成本最低。

深度強化學習系統的建立

1. 把世界抽象成具有狀態、動作(選擇)會影響狀態的變化的模型(馬爾可夫決策過程)。

2. 確定這個學習系統的目標,從而為這個世界中的一些狀態賦以收益值。目標就是獲得最大的收益的總和(價值)。 設計收益=給定目標

設定完以後,你現在擁有:

一,收益分佈函數(每個狀態對應的收益是多少)

二,狀態的集合

三,動作的集合

---------------- 設定結束, 以下是學習-----------------------

1. 讓學習系統隨便跑幾次,通過統計獲得狀態轉移概率。

2. 使用動態規劃求解出在當前狀態轉移概率下的最優的價值和最優的策略。

平時要學的東西很多、工作項目進展也很緊迫,時間真心不多,但是小編會堅持每週發表一篇文章。深度強化學習是一個非常有意思的方向,後續會介紹一些前沿專題和算法實現,各位看官多多支持,歡迎交流指導!


分享到:


相關文章: