探索深度強化學習在股票領域的盈利策略

2017-11-20 11:19:01 碼驛

隨著GPU計算能力的增強和深層神經網絡的突破，人工智能在很多尚未探索的領域獲得了應用機會。2017 年，深度學習開始影響金融業。如果你有相關專業的背景，金融領域已經向你打開了大門。

近年來雖然深度學習在理論和實踐上都取得了重大的進步，但是在金融界的應用卻很少有公開的報道。本頭條號——策維推演的宗旨是探索深度強化學習在股票領域的盈利策略。本文僅介紹基礎概念，歡迎後續關注！

強化學習是什麼

強化學習是多學科多領域交叉的一個產物，它的本質就是解決“決策（decision making）”問題，即學會自動進行決策。在神經科學中，人類研究人腦並發現了一種遵循強化算法的獎勵系統。在心理學中，人們研究的經典條件反射和操作性條件反射，也可以被認為是一個強化問題。類似的，在經濟學中我們研究理性博弈論；在數學中我們研究運籌學；在工程學中我們研究優化控制。所有的這些問題都可以被認為一種強化學習問題——它們研究同一個主題，即為了實現最佳結果而優化決策。這所有的問題最終都歸結為一個問題，人為什麼能夠做出最優決策，且人類是如何做到的。

深度學習與強化學習

深度學習的出現對機器學習中的許多領域產生了重大影響，大大提高了物體檢測、語音識別和語言翻譯等任務的state-of-the-art成績。深度學習最重要的特點在於，深度神經網絡可以自動發現高維度數據（例如，圖像、文本和音頻）的緊湊的低維表示（特徵）。通過將推演偏差（inductive biases）融入到神經網絡架構中，特別是融入到層次化的表示中。

運用深度學習法訓練出具有邏輯分析能力的機器，發揮機器的速度和理性優勢。DRL算法已被應用於各種各樣的問題，例如機器人技術，創建能夠進行元學習（“學會學習”learning to learn）的智能體，這種智能體能泛化處理以前從未見過的複雜視覺環境。

強化學習在股票上的應用例子

股票交易是一個序列決策過程，期間要做出很多的決策，每一個決策動作都要根據當前的股市狀態來決定是買，是賣還是觀望。假設我們需要在一個單位時間內買入一定數量的股票，我們希望買入的總價儘可能的小。強化學習系統接受環境狀態的輸入s，也就是剩餘的訂單量和剩餘時間，系統輸出相應的最佳動作a，也就是最佳的限價單價格。隨著限價單的執行，剩餘的訂單量會減少，而且剩餘時間也會減少，環境就變遷到了新的狀態s’。系統接收新的環境狀態輸入s’，同時將上一個限價單的執行成本，成交成本(成交部分)作為系統的瞬時獎懲反饋r也反饋給強化學習系統。對於強化學習系統來說，目標就是學習一個多階段的行為策略π：S→A。系統能夠根據剩餘訂單量以及剩餘時間，確定當前的最佳的限價單價格，從而使全部訂單成交成本最低。

深度強化學習系統的建立

1. 把世界抽象成具有狀態、動作(選擇)會影響狀態的變化的模型(馬爾可夫決策過程)。

2. 確定這個學習系統的目標，從而為這個世界中的一些狀態賦以收益值。目標就是獲得最大的收益的總和(價值)。設計收益=給定目標

設定完以後，你現在擁有:

一，收益分佈函數(每個狀態對應的收益是多少)

二，狀態的集合

三，動作的集合

---------------- 設定結束，以下是學習-----------------------

1. 讓學習系統隨便跑幾次，通過統計獲得狀態轉移概率。

2. 使用動態規劃求解出在當前狀態轉移概率下的最優的價值和最優的策略。

平時要學的東西很多、工作項目進展也很緊迫，時間真心不多，但是小編會堅持每週發表一篇文章。深度強化學習是一個非常有意思的方向，後續會介紹一些前沿專題和算法實現，各位看官多多支持，歡迎交流指導!

分享到:

閱讀更多碼驛的文章

關鍵字: 算法探索深度

三峽水利重組獲有條件通過整合區域電網推動電改

證券時報e公司訊，4月15日晚間，三峽水利發佈公告，根據證監會併購重組委會議審核結果，三峽水利此次重大資產重組事項獲得有條件通過，該公司股票自4月16日開市起復牌。

翠屏區統籌推進抗擊疫情期間招商不斷鏈

四川新聞網宜賓4月15日訊近期，翠屏區經濟合作和外事局為應對疫情帶來的相關影響，多措並舉統籌推進抗擊疫情期間招商不斷鏈。

年內淨息差恐整體收窄定存利率難現逆勢上漲

近期，監管層通過定向降準、降低負債端綜合成本等方式屢屢出拳，意在引導銀行加大對實體經濟的信貸支持，合理引導全社會融資成本下降。

39家基金公司業績曝光平均淨利潤4.17億

據證券時報記者統計，目前已經有39家基金公司去年經營情況浮出水面，去年平均淨利潤4.17億元。業內人士表示，伴隨著行業發展越來越成熟，行業龍頭的地位越來越穩固，越來越多的優秀人才湧進行業龍頭公司，這些公司也受到市場追捧，而小型基金公司面臨發展困局，彎道超車的難度越來越大。

四川印發《優質白酒產業2020年重點任務》：力爭釀酒專用糧基地建設超100萬畝

五糧液釀酒專用糧基地4月13日，記者從四川省經濟和信息化廳獲悉，根據2020年全省優質白酒產業振興發展推進會精神，近日，四川省印發《優質白酒產業2020年重點任務》。

全面提升和保障白酒質量四川省酒類產業計量測試中心落戶瀘州

4月9日上午，四川省酒類產業計量測試中心揭牌儀式在瀘州舉行，這是四川省首家通過驗收的產業計量測試中心。

今年瀘州加快推動47個酒類重點建設項目，力爭白酒營業收入突破1000億元

4月14日，瀘州日報記者從市酒業發展局獲悉，今年，我市將加快推動總投資1721.74億元的酒類重點建設項目47個。

我炒股遇到的大坑

這男的邊哭邊說，我哭的不是這個，我哭的是自己三四十歲的人，還在為一兩茶葉半斤小米這點小利折騰，感覺自己太失敗。

投資醫藥股的“錦囊妙計”

歡迎關注“紅星資本局”公眾號這段時間，醫藥股漲勢如虹，今日，在上證指數微跌的狀態下，居然有紅日藥業、以嶺藥業等17只醫藥股漲停，這段時間，醫藥股成為市場最大的熱點，接過了科技股的接力棒，蹭蹭地往上漲。

“我會一直在”！漢堡王中國稱與破產的新西蘭公司不是同一加盟商

4月15日，漢堡王官微在此事刷屏後，還發布了一條“I‘mfine thank you and you”內容，並借用網上流行語稱“小朋友你一定有很多問好”。

美年健康收到關注函，借殼上市以來首虧，還剩41億元商譽安全嗎

關注函披露，2019 年 10 月，監管部門曾在半年報問詢函中問詢美年健康未計提商譽減值準備的原因和合理性，該公司答覆稱“下半年整個行業環境仍然良好，公司預計能較好的完成 2019 年年初預算指標，實現承諾業績，未發現明顯的減值跡象”。

上汽集團營收利潤雙降董事長降薪近20%

《電鰻財經》趙超/文2018年下半年以來，汽車行業持續遇冷。全年國內市場銷售整車2590.5萬輛，同比下降8.0%;其中，乘用車銷售2154.9萬輛，同比下降9.1%，商用車銷售435.6萬輛，同比下降2.2%;新能源車市在購置補貼退坡後也出現階段性調整，全年銷售120.4萬輛，

孫正義跌下神壇！軟銀利潤暴跌99%，領投的2家公司均已破產

不僅公司利潤暴跌99%，連他領投的兩家公司都已經宣告破產。本來以為今年能夠好一點，誰成想又被領投的兩家公司給"坑"了，真是流年不利。

疫情期間盒馬速度不減，一個月內開出6家新店！

疫情下大量餐飲門店降速發展，盒馬鮮生卻是速度不減，一個月內連開6家新店。疫情期間，盒馬一直堅持線上線下同時營業，並積極拓展新的線下場景，盡全力滿足消費所需。

掏空式分紅！上市前百億分紅、財務數據打架，如今股價卻超260元

近期，伴隨著海底撈復工後漲價遭網友“討伐”的同時，海底撈張勇身為新加坡首富的寶座也被人奪走了，新晉的新加坡首富是A股創業板“一哥”、國內最大醫療器械龍頭邁瑞醫療的實控人、董事長李西廷。

這家大型券商APP遭吐槽，一家公司運行兩套交易系統！升級策略也遭質疑：熱衷添加邊緣功能

“一家券商兩個交易系統登錄，這叫什麼重組？”日前，有個人投資者在股吧發帖吐槽，自己在交易的過程中，發現申萬宏源軟件中包含原申萬和原宏源兩套交易系統，導致自己賬號被凍結並遭遇投資損失。

資本動物世界裡的「做空」簡史

渾水的創始人Block 在 The China Hustle 這部紀錄片中，聊到了為什麼把自己的公司起名為「渾水」，水至清，則無魚，「中國人用『渾水摸魚』比喻利用混沌不明的局勢賺錢。

原公司法定代表人拒不配合工商變更，拒不返還公司公章，怎麼辦？

私信或評論區諮詢法定代表人基於法律的規定代表著公司。在公司權利能力和行為能力範圍內，原則上可以在公司一切對外事務中代表著公司。

淨利潤環比暴增3659%！預盈預增概念，還有100%上漲空間？

工程承包及建築裝飾;建築裝飾材料、鋼材、木材、機電設備、黃金及礦產品銷售;房屋租賃;在法律、法規規定的範圍內對外投資。二.熱點個股解讀：600766業績增長：年報公佈淨利潤環比3659%.概念題材：貴金屬黃金概念殼資源融資融券山東板塊經營範圍房地產開發及經營、物業管理

會計要記住：這樣籌劃稅收萬萬不可！看看這10種方式

方式一：公司為了讓股東少交甚至不交分紅的20%的個稅，讓股東從公司以借款名義拿走鉅額的分紅，會計掛賬在“其他應收款-自然人股東”中。方式二：公司為了少繳25%的企業所得稅，把取得的收入人為掛賬在“預收賬款”科目中，隱匿營業收入。

棉花周度策略分析

國內下跌主因是前期漲幅過大，國內外棉花差價不斷擴大，即時國內有紡織訂單不斷增加的事實，但隨著棉花價格上漲，採購開始謹慎，新疆籽棉收穫接近尾聲，棉花上漲驅動籽棉收購價格.上漲的螺旋上漲難以持續，並且ICE 棉花漲幅一旦跟不上國內內漲幅，壓力自然產生。

打造航母券商中信和中信建投合並或引爆行情

【打造航母券商中信和中信建投合並或引爆行情】今天市場的最大亮點就是午後券商股的發力，市場的人氣還是要靠科技和證券來打，早盤科技股有表現，但是經過這兩二個月科技股的回落，大家對於科技股的追捧熱情早就沒有了，甚至很多人開始不相信科技股的未來了，所以科技股的上漲，對人氣的貢獻度並不大

揭祕——主力資金怎樣一股力量？數據告訴你這股力量有多強大

4月14日，主力資金淨流入131.45億元，當日上證指數上漲1.59%，創業板指大漲3.24%，。與之相對的是，4月10日，主力資金淨流出507.72億元，當日上證指數下跌1.04%，創業板指下跌2.37%。

A股修復行情還沒結束！股民注意，別“漏”了這2個積極信號

昨天晚上美股大幅上漲，但我們今天低開低走，下午大盤直接跳水，今天一跌，可能很多朋友又在擔心，行情是不是要結束了？

漲價概念還是市場的方向

可以交易行業板塊醫療保健、農林牧漁、建材、、食品飲料、商業連鎖、醫藥、工程機械、紡織服飾、造紙、釀酒市場交易環境上證指數交易環境 ☆☆☆ 壓力位2828支撐位 2756創業板指數交易環境 ☆☆☆壓力位1967 支撐位 1892 ETF基金遊戲代碼510500 500ETF

漲停板學深度教程 11：關於市場資金量的大局觀

理解資金關係是市場根本，抓住資金這個根本，才能洞悉市場的一切行為和漲跌關係炒股最核心和根本的分析就是資金。

廣州，太平洋電腦城，你為什麼不早點轉型

隨著11月15日廣州市天河區農村集體資產交易中心公告一則中標公示，太平洋電腦城A場也宣告易主。這是繼今年2月28日廣州太平洋數碼廣場B場宣告結業後，被稱為“太平洋電腦城”的A場也即將退場。

15熱點追蹤

附最近幾日暴跌妖股，最近幾日暴漲妖股。暴跌妖股再次提醒，妖股技巧在倉位管理，不是技術也不是心態的博弈。

你領到消費券了嗎？即日起至6月30日遂寧擬分期投放1億餘元消費券

日前，記者從市商務局獲悉為統籌做好全面奪取疫情防控和經濟社會發展雙勝利遂寧市擬分期投放10095萬元消費券助推經濟復甦市民得實惠政府企業送“禮包”“我們三個閨蜜逛街，到飯點了就直接在萬達三樓吃了點東西，總共費用是130元，我們在網上參加了萬達的搶券活動，搶到了50元的餐飲券，加上

小米集團戰略入股TCL,強強聯合提升大家電供應鏈能力？

宣佈小米集團戰略入股TCL集團。TCL表示，此次入股有利於加深小米和TCL兩個產業集團的合作深度，構建更為緊密的戰略合作伙伴關係。

全球富豪榜出爐：中國豬肉生產商佔兩席；馬化騰馬雲並列中國首富

中國網科技4月7日訊昨日，胡潤研究院發佈《疫情兩個月後全球企業家財富變化特別報告》（以下簡稱《報告》）顯示，全球百強企業家近兩月財富損失2.6萬億人民幣，即13%，蒸發了過去兩年半所創造的財富；前十名損失1.4萬億人民幣。

戴德樑行：短期承壓商辦市場回暖在望

實體零售遭遇遏制轉型升級助力市場煥發生機2020年一季度，北京零售市場優質零售物業總存量為1 219萬平方米，佔比達86.3%。 412萬平方米，其中購物中心存量達1

穗一季度吸引投資額近1.4萬億元

4月14日，在廣州第77場疫情防控新聞發佈會上，廣州市商務局副局長吳尚偉公佈了最新的招商引資成果：廣州一季度簽約、動工、投產項目超800個，涉及投資總額13899.64億元，預計達產年產值/營收10902.72億元。

一季度廣州簽約動工投產億元以上產業項目超800個

記者14日在廣州市政府新聞辦舉行的發佈會上獲悉，一季度廣州簽約、動工、投產億元以上產業項目超800個，涉及投資總額13899.64億元。

4月15日9:45，央行宣佈降息，拆叔速評

早上9點45分，中國人民銀行宣佈1000億中期借貸便利MLF操作，並下調中標利率20個基點至2.95%，此前為3.15%。此前在3月31日，央行已經率先下調逆回購利率20個基點。

葉檀：中國發達城市都應該來抄抄上海的作業

文/葉檀☞財經女俠 | 毒舌善心三年之後，上海是怎麼樣的，長三角是怎麼樣的？三年之後，哪座城市年輕人多，哪座城市房價高，這樣的比較毫無意義。一切取決於，科技的發展。在上海的特斯拉會像當初富士康在東莞一樣，需要百萬名員工嗎？不要。根據特斯拉和臨港的規劃，最多也就吸引1萬多人。上海特

芒格：“所有聰明的投資都是價值投資”

圖/視覺中國《財經》特約作者傅喻 | 文發自美國奧馬哈2018年4月，經過半年思考，我給沃倫·巴菲特的老搭檔、伯克希爾哈撒韋公司董事會副主席查理·芒格寫了一封信，希望94歲高齡的他能夠再度接受我專訪。早在三年前，我曾經和芒格的助理商量過這個想法，但他助理認為，採訪拍攝有諸多不便

三強兩促力奪半年紅｜鰲江落實“一項目一專班”制度，“保姆式”服務助力項目落地

日前，記者從鰲江鎮獲悉，該鎮通過實行“一項目一專班”工作制度，為項目提供“保姆式”服務，完成了親子主題教育商業綜合體、濱江高等級酒店等2個項目的土地掛牌所有前期準備工作，助力項目加快落地。

朱是西會見中國長城科技集團股份有限公司河南分公司趙偉建一行

駐馬店廣電融媒體消息：4月15日上午，市委副書記、市長朱是西親切會見了中國長城科技集團股份有限公司河南分公司執行董事、總經理趙偉建一行，雙方圍繞加強務實合作、推進項目落地駐馬店進行了深入交談。

興嘉房開司舉辦“每週一課”，凝心聚力謀發展

4月10日下午，樂山城投集團下屬興嘉房開司舉辦了第一期“每週一課”學習活動。尤其是下一步小地塊的項目開發，更讓興嘉房開司的年輕人興奮不已，積極獻言獻策，希望能通過這些項目的落地，讓興嘉房開司真正實現鳳凰涅槃。

@所有人｜今晚21:20 e修鴿邀您觀看天津衛視《創業中國人》

從白手起家到獨角獸企業聯合創始人，從“獨自打拼”到“帶著團隊拼殺商場”，在瞬息萬變的商業戰場中，總有一些人能夠破思想之“繭”，乘改革之“風”，呈飛躍之“勢”，用自己的節奏，從零開始把e修鴿旗幟插遍全國。他就是e修鴿聯合創始人——胡海威。一生一世只做一件事，一生都會致力於做這樣的事

曹德旺提示: 疫情過後可能會迎來全球產業鏈的去中國化

在採訪過程中，新京報向曹德旺提出了多個問題。問題一：疫情暴露了當前全球化產業鏈存在的風險，待疫情退去，是否會造成全球產業鏈的改變。

【財經下午茶】申萬宏源APP運行兩套交易系統致股民賬號被凍結

申萬宏源APP運行兩套交易系統致股民賬號被凍結日前，有個人投資者在股吧發帖稱，自己在交易的過程中，發現申萬宏源軟件中包含原申萬和原宏源兩套交易系統，導致自己賬號被凍結並遭遇投資損失。

千城：您的企業值多少錢？

這是一個關於企業價值的話題，說到這裡，一大堆專業術語從眼前飄過：MM理論、預期自由現金流現值、折現率、PE、PB、ROE…

千城：教你認識財務槓桿-成也蕭何敗蕭何

度娘會告訴你財務槓桿的定義：財務槓桿又叫籌資槓桿或融資槓桿，它是指由於固定債務利息和優先股股利的存在而導致普通股每股利潤變動幅度大於息稅前利潤變動幅度的現象。

【數據流】疫情中，你最關心什麼？10大擔憂，中國對比國外

No.1家人身體健康My family’s health不出所料，多數人都是最關心自己家人的健康，掙錢不就是為了家人可以健康快樂麼？

漯河市科協邀請蘇州客商考察我市醫療用品企業

4月15日上午，在漯河市順康醫療用品公司負責人張紅喜的帶領下，蘇州客商一行深入企業生產車間、物料車間及倉庫進行實地參觀，瞭解企業生產經營狀況。

被疫情激活的人工智能，如何逐浪新基建

撰文/李季編輯/ 陳鄧新4月7日，南昌三中義坊學校門口擺放了一臺人臉識別測溫機，復課的初三學生不用摘下口罩，就可以識別在校師生的身份及測量體溫。

疫情過後，中國3月風投規模回升，是2月份的6倍多

據英國《金融時報》網站4月14日報道，根據《亞洲創業投資期刊》數據，中國初創企業和科技企業在3月籌集了超過25億美元，是2月4.1億美元的六倍多，創下紀錄。

IMF：自上世紀30年代最嚴重經濟大蕭條！未來2年損失9萬億美元

2020年4月14日4月14日，國際貨幣基金組織在線上春季年會期間發佈了《世界經濟展望》，預測2020年全球增長率降至-3%，與1月的預測相比下調幅度高達6.3個百分點。