用機器學習預測股市漲跌

2018-10-27 22:32:48 永定河邊蓑笠翁

項目背景

在證券市場中，存在著大量歷史交易數據。近年來隨著大數據興起，數據挖掘技術在股市中也得到了廣泛的關注，在閱讀文獻的基礎上我們小組對股市中不同情況如行業板塊聯動、行業指數漲跌預測、個股價格漲跌預測分別採用不同的機器學習算法進行分析。

關聯規則與行業聯動‍

一、算法介紹

關聯規則可以通過特定的規則算法對數據進行分析，在海量的數據中尋找一個事件與其他事件的關聯性和依賴性，挖掘出數據庫中不同的數據項集之間隱藏的有價值的關聯關係。

由於行業成長週期和貨幣財政政策調整給行業帶來的機遇不同，造成股市出現行業聯動現象。運用關聯規則在股市的行業板塊中找出這些頻繁出現的項集有助於我們瞭解我國股市行業聯動規律。

在此次建模過程中，我們主要採取支持度和置信度兩個指標對建模結果進行分析和優化。支持度表示規則發生的頻率，置信度表示二者的關聯性。

Apriori算法過程：首先找出所有交易數據庫中大於或者等於制定的最小支持度的頻繁項集，再利用頻繁項集生成所需要的關聯規則，從而根據所設定的最小值信度篩選出強關聯規則。

二、數據收集

首先我們利用同花順IFIND軟件下載AMAC行業指數歷史漲跌幅數據。

本組採用中基協基金估值行業分類指數（簡稱“AMAC行業指數”） 2018年1月2日-2018年8月29日每日漲跌幅。

三、數據清洗

由於板塊指數每日漲跌幅度相比個股漲跌幅度小，且集中於-2%至2%之間，將行業每日漲跌幅分為六個階段，在R語言中處理數據。

處理後的數據

四、數據建模

關聯規則核心代碼：

首先我們採用支持度0.2，置信度0.8的條件，找出2條規則。

返回查表後，可得規則如下：

1.當化學制品指數漲跌幅在-1%<=漲跌幅<0%的時候，建築指數漲跌幅很大可能在-1%<=漲跌幅<0%

2.當造紙指數指數漲跌幅在-1%<=漲跌幅<0%的時候，建築指數漲跌幅很大可能在-1%<=漲跌幅<0%

當我們放寬要求，在支持度0.15，置信度0.8條件下，得出27條規則的時候。我們看一看排名前10 的規則：

我們可以從中得出行業間存在著顯著的行業聯動現象，且具有雙向對稱性，並且從中提取出具有強關聯性板塊有：

五、結論

在股市行業聯動現象分析上關聯規則算法表現較好。

在行業上漲階段，投資者在選擇投資組合時可以同時投資紡織行業、橡膠行業等上漲關聯類行業以提高獲得超額收益的概率。

在行業下跌階段，投資者避免同時配置建築行業、專用設備、通用設備等下跌關聯類行業。

機器算法與漲跌預測‍

一、算法介紹

目前預測股票的建模模型可分為兩類，一類為傳統生成型類模型，包括自迴歸滑動平均模型和自迴歸異方差模型及它們的衍生擴展模型，但這類模型需要在樣本足夠大，且分佈較好的情況下，預測效果才會比較理想；另一類為數據驅動模型，包括機器學習中的神經網絡模型、支持向量機模型、K近鄰分類器模型、決策樹模型等，此類模型對樣本的分佈程度和樣本量的要求均較低，可以藉助對數據的分析進行非線性智能預測。

KNN 最近鄰分類器模型

處理分類問題的算法，尋找與測試樣例屬性相對最接近的k個訓練樣例，根據少數服從多數的原則將測試樣例判定為該類型。

貝葉斯模型

貝葉斯分類是一種基於貝葉斯定理的統計學分類方法，可以預測給定樣本屬於一個特定類的概率。

決策樹模型

有監督學習算法中處理迴歸問題與分類問題的模型。通過遞迴式切割的方法尋找最佳的分類標準，進而最終形成分類規則進行預測。

神經網絡模型

神經網絡的結構由一個輸入層、若干個中間隱含層和一個輸出層組成。神經網絡分析法通過不斷學習，能夠從未知模式的大量的複雜數據中發現其規律，是一種自然的非線性建模過程。

二、數據獲取

還是利用同花順IFIND軟件下載相關數據。

本組在進一步機器學習算法預測中選用上一部分板塊聯動中出現頻率較高的建築指數，並在建築指數的成分股中挑選了財務指標較好的兩隻個股海波重科、亞翔集成進行漲跌預測分析。

三、數據清洗

本組在閱讀文獻後，我們將大部分學者集中選取的七種行情指標作為特徵，選取下一日的漲跌情況為標籤（注：漲為1，跌為0）。

行情指標分別為：開盤價、最高價、最低價、收盤價、漲跌幅、成交金額、換手率。

R語言對數據進行量綱標準化、刪除空缺值等預處理。

原始數據

0-1標準化之後的數據

四、數據建模

隨機劃分訓練集與測試集。
通過決策樹模型、貝葉斯模型、KNN與神經網絡模型四種機器學習算法分別對數據集進行訓練。
通過交叉驗證，改變k值學習曲線的k值等方法進行調優。
進行擬合度討論，對比分析四種機器學法算法的準確率，最終結果如圖所示。

預測結果：

建築指數漲跌預測中KNN模型效果最好，訓練集準確率為0.63。

亞翔集成漲跌預測中神經網絡模型訓練集、測試集準確率均最高。

從決策樹模型的變量重要性結果中可以得知：亞翔集成的當日開盤價變量對下一日漲跌影響最大。

神經網絡模型訓練集準確率最高，但貝葉斯網絡測試集準確率最高。

值得關注的是海波重科的成交金額變量影響相比其他變量更大。

五、結論

在預測指數和個股漲跌方面機器學習算法預測股市漲跌整體效果一般。

測試集準確率整體在50%左右，其中神經網絡模型模擬訓練集時準確率均在90%以上，但測試集準確率在60%左右，過擬合現象嚴重，但神經網絡模型相比其他三種模型，總體準確率較高，模擬效果相對更好。

其次模型效果較好的為KNN最近鄰分類器模型與貝葉斯模型，決策樹模型效果最差。

在繼續構建機器學習算法預測股票漲跌模型中，首要關注算法仍是神經網絡模型。

模型改進

在分析行業聯動方面，我們只選擇了2018年的行業指數，數據量可以繼續擴大，找出更多的關聯規則。且只分析了每日的行業指數，可以進一步找出周行情、月行情的關聯規則，分析行業關於日周月的輪動規則。

在分析股票漲跌方面，選用了開盤價等七種行情指標作為特徵，可以擴大至技術指標如布林線、KDJ指標、PSY心理指標等，增加特徵，提高準確率。

神經網絡模型在股票漲跌預測效果雖然是4種算法中最好的，但是過擬合現象嚴重，仍需優化及尋找其他解決方法。

作者：Yura，計算機科學與技術專業大四在讀，因在澳洲交換學習接觸了大數據，甚感興趣。遂開公眾號“Yura不說數據說”督促自己學習數據分析！歡迎大家關注我的個人公眾號，一起（監督我）學習。

分享到:

閱讀更多 永定河邊蓑笠翁 的文章

關鍵字: 漲跌人工智能大數據

三峽水利重組獲有條件通過整合區域電網推動電改

證券時報e公司訊，4月15日晚間，三峽水利發佈公告，根據證監會併購重組委會議審核結果，三峽水利此次重大資產重組事項獲得有條件通過，該公司股票自4月16日開市起復牌。

翠屏區統籌推進抗擊疫情期間招商不斷鏈

四川新聞網宜賓4月15日訊近期，翠屏區經濟合作和外事局為應對疫情帶來的相關影響，多措並舉統籌推進抗擊疫情期間招商不斷鏈。

年內淨息差恐整體收窄定存利率難現逆勢上漲

近期，監管層通過定向降準、降低負債端綜合成本等方式屢屢出拳，意在引導銀行加大對實體經濟的信貸支持，合理引導全社會融資成本下降。

39家基金公司業績曝光平均淨利潤4.17億

據證券時報記者統計，目前已經有39家基金公司去年經營情況浮出水面，去年平均淨利潤4.17億元。業內人士表示，伴隨著行業發展越來越成熟，行業龍頭的地位越來越穩固，越來越多的優秀人才湧進行業龍頭公司，這些公司也受到市場追捧，而小型基金公司面臨發展困局，彎道超車的難度越來越大。

四川印發《優質白酒產業2020年重點任務》：力爭釀酒專用糧基地建設超100萬畝

五糧液釀酒專用糧基地4月13日，記者從四川省經濟和信息化廳獲悉，根據2020年全省優質白酒產業振興發展推進會精神，近日，四川省印發《優質白酒產業2020年重點任務》。

全面提升和保障白酒質量四川省酒類產業計量測試中心落戶瀘州

4月9日上午，四川省酒類產業計量測試中心揭牌儀式在瀘州舉行，這是四川省首家通過驗收的產業計量測試中心。

今年瀘州加快推動47個酒類重點建設項目，力爭白酒營業收入突破1000億元

4月14日，瀘州日報記者從市酒業發展局獲悉，今年，我市將加快推動總投資1721.74億元的酒類重點建設項目47個。

我炒股遇到的大坑

這男的邊哭邊說，我哭的不是這個，我哭的是自己三四十歲的人，還在為一兩茶葉半斤小米這點小利折騰，感覺自己太失敗。

投資醫藥股的“錦囊妙計”

歡迎關注“紅星資本局”公眾號這段時間，醫藥股漲勢如虹，今日，在上證指數微跌的狀態下，居然有紅日藥業、以嶺藥業等17只醫藥股漲停，這段時間，醫藥股成為市場最大的熱點，接過了科技股的接力棒，蹭蹭地往上漲。

“我會一直在”！漢堡王中國稱與破產的新西蘭公司不是同一加盟商

4月15日，漢堡王官微在此事刷屏後，還發布了一條“I‘mfine thank you and you”內容，並借用網上流行語稱“小朋友你一定有很多問好”。

美年健康收到關注函，借殼上市以來首虧，還剩41億元商譽安全嗎

關注函披露，2019 年 10 月，監管部門曾在半年報問詢函中問詢美年健康未計提商譽減值準備的原因和合理性，該公司答覆稱“下半年整個行業環境仍然良好，公司預計能較好的完成 2019 年年初預算指標，實現承諾業績，未發現明顯的減值跡象”。

上汽集團營收利潤雙降董事長降薪近20%

《電鰻財經》趙超/文2018年下半年以來，汽車行業持續遇冷。全年國內市場銷售整車2590.5萬輛，同比下降8.0%;其中，乘用車銷售2154.9萬輛，同比下降9.1%，商用車銷售435.6萬輛，同比下降2.2%;新能源車市在購置補貼退坡後也出現階段性調整，全年銷售120.4萬輛，

孫正義跌下神壇！軟銀利潤暴跌99%，領投的2家公司均已破產

不僅公司利潤暴跌99%，連他領投的兩家公司都已經宣告破產。本來以為今年能夠好一點，誰成想又被領投的兩家公司給"坑"了，真是流年不利。

疫情期間盒馬速度不減，一個月內開出6家新店！

疫情下大量餐飲門店降速發展，盒馬鮮生卻是速度不減，一個月內連開6家新店。疫情期間，盒馬一直堅持線上線下同時營業，並積極拓展新的線下場景，盡全力滿足消費所需。

掏空式分紅！上市前百億分紅、財務數據打架，如今股價卻超260元

近期，伴隨著海底撈復工後漲價遭網友“討伐”的同時，海底撈張勇身為新加坡首富的寶座也被人奪走了，新晉的新加坡首富是A股創業板“一哥”、國內最大醫療器械龍頭邁瑞醫療的實控人、董事長李西廷。

這家大型券商APP遭吐槽，一家公司運行兩套交易系統！升級策略也遭質疑：熱衷添加邊緣功能

“一家券商兩個交易系統登錄，這叫什麼重組？”日前，有個人投資者在股吧發帖吐槽，自己在交易的過程中，發現申萬宏源軟件中包含原申萬和原宏源兩套交易系統，導致自己賬號被凍結並遭遇投資損失。

資本動物世界裡的「做空」簡史

渾水的創始人Block 在 The China Hustle 這部紀錄片中，聊到了為什麼把自己的公司起名為「渾水」，水至清，則無魚，「中國人用『渾水摸魚』比喻利用混沌不明的局勢賺錢。

原公司法定代表人拒不配合工商變更，拒不返還公司公章，怎麼辦？

私信或評論區諮詢法定代表人基於法律的規定代表著公司。在公司權利能力和行為能力範圍內，原則上可以在公司一切對外事務中代表著公司。

淨利潤環比暴增3659%！預盈預增概念，還有100%上漲空間？

工程承包及建築裝飾;建築裝飾材料、鋼材、木材、機電設備、黃金及礦產品銷售;房屋租賃;在法律、法規規定的範圍內對外投資。二.熱點個股解讀：600766業績增長：年報公佈淨利潤環比3659%.概念題材：貴金屬黃金概念殼資源融資融券山東板塊經營範圍房地產開發及經營、物業管理

會計要記住：這樣籌劃稅收萬萬不可！看看這10種方式

方式一：公司為了讓股東少交甚至不交分紅的20%的個稅，讓股東從公司以借款名義拿走鉅額的分紅，會計掛賬在“其他應收款-自然人股東”中。方式二：公司為了少繳25%的企業所得稅，把取得的收入人為掛賬在“預收賬款”科目中，隱匿營業收入。

棉花周度策略分析

國內下跌主因是前期漲幅過大，國內外棉花差價不斷擴大，即時國內有紡織訂單不斷增加的事實，但隨著棉花價格上漲，採購開始謹慎，新疆籽棉收穫接近尾聲，棉花上漲驅動籽棉收購價格.上漲的螺旋上漲難以持續，並且ICE 棉花漲幅一旦跟不上國內內漲幅，壓力自然產生。

打造航母券商中信和中信建投合並或引爆行情

【打造航母券商中信和中信建投合並或引爆行情】今天市場的最大亮點就是午後券商股的發力，市場的人氣還是要靠科技和證券來打，早盤科技股有表現，但是經過這兩二個月科技股的回落，大家對於科技股的追捧熱情早就沒有了，甚至很多人開始不相信科技股的未來了，所以科技股的上漲，對人氣的貢獻度並不大

揭祕——主力資金怎樣一股力量？數據告訴你這股力量有多強大

4月14日，主力資金淨流入131.45億元，當日上證指數上漲1.59%，創業板指大漲3.24%，。與之相對的是，4月10日，主力資金淨流出507.72億元，當日上證指數下跌1.04%，創業板指下跌2.37%。

A股修復行情還沒結束！股民注意，別“漏”了這2個積極信號

昨天晚上美股大幅上漲，但我們今天低開低走，下午大盤直接跳水，今天一跌，可能很多朋友又在擔心，行情是不是要結束了？

漲價概念還是市場的方向

可以交易行業板塊醫療保健、農林牧漁、建材、、食品飲料、商業連鎖、醫藥、工程機械、紡織服飾、造紙、釀酒市場交易環境上證指數交易環境 ☆☆☆ 壓力位2828支撐位 2756創業板指數交易環境 ☆☆☆壓力位1967 支撐位 1892 ETF基金遊戲代碼510500 500ETF

漲停板學深度教程 11：關於市場資金量的大局觀

理解資金關係是市場根本，抓住資金這個根本，才能洞悉市場的一切行為和漲跌關係炒股最核心和根本的分析就是資金。

廣州，太平洋電腦城，你為什麼不早點轉型

隨著11月15日廣州市天河區農村集體資產交易中心公告一則中標公示，太平洋電腦城A場也宣告易主。這是繼今年2月28日廣州太平洋數碼廣場B場宣告結業後，被稱為“太平洋電腦城”的A場也即將退場。

15熱點追蹤

附最近幾日暴跌妖股，最近幾日暴漲妖股。暴跌妖股再次提醒，妖股技巧在倉位管理，不是技術也不是心態的博弈。

你領到消費券了嗎？即日起至6月30日遂寧擬分期投放1億餘元消費券

日前，記者從市商務局獲悉為統籌做好全面奪取疫情防控和經濟社會發展雙勝利遂寧市擬分期投放10095萬元消費券助推經濟復甦市民得實惠政府企業送“禮包”“我們三個閨蜜逛街，到飯點了就直接在萬達三樓吃了點東西，總共費用是130元，我們在網上參加了萬達的搶券活動，搶到了50元的餐飲券，加上

小米集團戰略入股TCL,強強聯合提升大家電供應鏈能力？

宣佈小米集團戰略入股TCL集團。TCL表示，此次入股有利於加深小米和TCL兩個產業集團的合作深度，構建更為緊密的戰略合作伙伴關係。

全球富豪榜出爐：中國豬肉生產商佔兩席；馬化騰馬雲並列中國首富

中國網科技4月7日訊昨日，胡潤研究院發佈《疫情兩個月後全球企業家財富變化特別報告》（以下簡稱《報告》）顯示，全球百強企業家近兩月財富損失2.6萬億人民幣，即13%，蒸發了過去兩年半所創造的財富；前十名損失1.4萬億人民幣。

戴德樑行：短期承壓商辦市場回暖在望

實體零售遭遇遏制轉型升級助力市場煥發生機2020年一季度，北京零售市場優質零售物業總存量為1 219萬平方米，佔比達86.3%。 412萬平方米，其中購物中心存量達1

穗一季度吸引投資額近1.4萬億元

4月14日，在廣州第77場疫情防控新聞發佈會上，廣州市商務局副局長吳尚偉公佈了最新的招商引資成果：廣州一季度簽約、動工、投產項目超800個，涉及投資總額13899.64億元，預計達產年產值/營收10902.72億元。

一季度廣州簽約動工投產億元以上產業項目超800個

記者14日在廣州市政府新聞辦舉行的發佈會上獲悉，一季度廣州簽約、動工、投產億元以上產業項目超800個，涉及投資總額13899.64億元。

4月15日9:45，央行宣佈降息，拆叔速評

早上9點45分，中國人民銀行宣佈1000億中期借貸便利MLF操作，並下調中標利率20個基點至2.95%，此前為3.15%。此前在3月31日，央行已經率先下調逆回購利率20個基點。

葉檀：中國發達城市都應該來抄抄上海的作業

文/葉檀☞財經女俠 | 毒舌善心三年之後，上海是怎麼樣的，長三角是怎麼樣的？三年之後，哪座城市年輕人多，哪座城市房價高，這樣的比較毫無意義。一切取決於，科技的發展。在上海的特斯拉會像當初富士康在東莞一樣，需要百萬名員工嗎？不要。根據特斯拉和臨港的規劃，最多也就吸引1萬多人。上海特

芒格：“所有聰明的投資都是價值投資”

圖/視覺中國《財經》特約作者傅喻 | 文發自美國奧馬哈2018年4月，經過半年思考，我給沃倫·巴菲特的老搭檔、伯克希爾哈撒韋公司董事會副主席查理·芒格寫了一封信，希望94歲高齡的他能夠再度接受我專訪。早在三年前，我曾經和芒格的助理商量過這個想法，但他助理認為，採訪拍攝有諸多不便

三強兩促力奪半年紅｜鰲江落實“一項目一專班”制度，“保姆式”服務助力項目落地

日前，記者從鰲江鎮獲悉，該鎮通過實行“一項目一專班”工作制度，為項目提供“保姆式”服務，完成了親子主題教育商業綜合體、濱江高等級酒店等2個項目的土地掛牌所有前期準備工作，助力項目加快落地。

朱是西會見中國長城科技集團股份有限公司河南分公司趙偉建一行

駐馬店廣電融媒體消息：4月15日上午，市委副書記、市長朱是西親切會見了中國長城科技集團股份有限公司河南分公司執行董事、總經理趙偉建一行，雙方圍繞加強務實合作、推進項目落地駐馬店進行了深入交談。

興嘉房開司舉辦“每週一課”，凝心聚力謀發展

4月10日下午，樂山城投集團下屬興嘉房開司舉辦了第一期“每週一課”學習活動。尤其是下一步小地塊的項目開發，更讓興嘉房開司的年輕人興奮不已，積極獻言獻策，希望能通過這些項目的落地，讓興嘉房開司真正實現鳳凰涅槃。

@所有人｜今晚21:20 e修鴿邀您觀看天津衛視《創業中國人》

從白手起家到獨角獸企業聯合創始人，從“獨自打拼”到“帶著團隊拼殺商場”，在瞬息萬變的商業戰場中，總有一些人能夠破思想之“繭”，乘改革之“風”，呈飛躍之“勢”，用自己的節奏，從零開始把e修鴿旗幟插遍全國。他就是e修鴿聯合創始人——胡海威。一生一世只做一件事，一生都會致力於做這樣的事

曹德旺提示: 疫情過後可能會迎來全球產業鏈的去中國化

在採訪過程中，新京報向曹德旺提出了多個問題。問題一：疫情暴露了當前全球化產業鏈存在的風險，待疫情退去，是否會造成全球產業鏈的改變。

【財經下午茶】申萬宏源APP運行兩套交易系統致股民賬號被凍結

申萬宏源APP運行兩套交易系統致股民賬號被凍結日前，有個人投資者在股吧發帖稱，自己在交易的過程中，發現申萬宏源軟件中包含原申萬和原宏源兩套交易系統，導致自己賬號被凍結並遭遇投資損失。

千城：您的企業值多少錢？

這是一個關於企業價值的話題，說到這裡，一大堆專業術語從眼前飄過：MM理論、預期自由現金流現值、折現率、PE、PB、ROE…

千城：教你認識財務槓桿-成也蕭何敗蕭何

度娘會告訴你財務槓桿的定義：財務槓桿又叫籌資槓桿或融資槓桿，它是指由於固定債務利息和優先股股利的存在而導致普通股每股利潤變動幅度大於息稅前利潤變動幅度的現象。

【數據流】疫情中，你最關心什麼？10大擔憂，中國對比國外

No.1家人身體健康My family’s health不出所料，多數人都是最關心自己家人的健康，掙錢不就是為了家人可以健康快樂麼？

漯河市科協邀請蘇州客商考察我市醫療用品企業

4月15日上午，在漯河市順康醫療用品公司負責人張紅喜的帶領下，蘇州客商一行深入企業生產車間、物料車間及倉庫進行實地參觀，瞭解企業生產經營狀況。

被疫情激活的人工智能，如何逐浪新基建

撰文/李季編輯/ 陳鄧新4月7日，南昌三中義坊學校門口擺放了一臺人臉識別測溫機，復課的初三學生不用摘下口罩，就可以識別在校師生的身份及測量體溫。

疫情過後，中國3月風投規模回升，是2月份的6倍多

據英國《金融時報》網站4月14日報道，根據《亞洲創業投資期刊》數據，中國初創企業和科技企業在3月籌集了超過25億美元，是2月4.1億美元的六倍多，創下紀錄。

IMF：自上世紀30年代最嚴重經濟大蕭條！未來2年損失9萬億美元

2020年4月14日4月14日，國際貨幣基金組織在線上春季年會期間發佈了《世界經濟展望》，預測2020年全球增長率降至-3%，與1月的預測相比下調幅度高達6.3個百分點。