機器學習,確實太吸引人了 。白菜,就是機器學習小白,然後還是菜鳥。很不幸,還得加上個老,不是小白菜的故事,是老白菜的學習日記。好難聽的稱呼,自己說完都不忍直視。
臨川羨魚不如退而結網
機器學習跟深度學習,確實作用很大,還能實現自己天馬行空的想法
我們看到的超級實用的例子:
自動文案,去幫助營銷人員,選擇最吸引眼球的營銷文案。
熱詞分析,抓取行業話題熱點,讓自己能夠跟隨爭議”風暴眼“
師夷長技,定製自己的專屬策略大師。
它山之石可以攻玉。我們的目的是為了博採眾長,為我所用。打造出自己專屬的機器學習工具,自己能掌握的工具。
工欲善其事,必先利其器。我們一點點的打磨我們的利器吧。
掌握總體路線圖,一點點深入下去
機器學習,可以分經典機器學習、強化學習、神經網絡和深度學習、集成方法。
對應的英文Classical Machine Learning、Reinforcement Learning、Nuaral Networks and Deep Learning、Ensembles。
上面四種類別其中的經典機器學習,分監督學習和無監督學習;其中的集成方法,有Stacking、Bagging、Boosting。
監督學習,有樸素貝葉斯(NB)、支持向量機(SVM)、迴歸(Regression)
無監督學習,有聚類、降維、關聯規則學習。
先學學樸素貝葉斯
如果看到此處,已經氣喘如牛,那說明學習態度非常好。
樸素貝葉斯,曾經被認為是最優雅、最實用的算法。
藉助垃圾郵件過濾的應用來看樸素貝葉斯(Naive Bayes,簡稱NB)公式,是最好理解的辦法。
- 樸素貝葉斯公式:P(Y|X) =P(X|Y)*P(Y)/P(X)
- Y看作是郵件分類結果(0不是垃圾郵件、1是垃圾郵件);X看作是郵件中的各個關鍵詞彙。
- P(Y|X)表示郵件包含X詞語時,該郵件為Y類的概率(後驗概率),是垃圾郵件過濾的結果,我們將測試樣本X歸類到概率最大的那個Y類。
- P(Y)表示訓練集中各類郵件出現的概率(條件概率)(大數定理,即各類郵件出現次數、總郵件數),訓練樣本少的情況下,大數定理是不適用的。
- P(X)表示郵件某個詞語出現的概率,P(X|Y)表示某類郵件出現詞語X的概率(先驗概率)
Python中怎麼用?
<code>from sklearn import naive_bayes/<code>
樸素貝葉斯,用來預測,要有樣本庫,樣本庫被分為訓練集和測試集。
通過訓練和測試,得出摘要,然後就可以計算概率做預測了。
每天只需要進步一點點,慢慢就滲透進去了。
不要著急奧。用到的知識一點點就補起來了。
憲哥最愛說的一句話:大處著眼,小處著手。這跟王陽明的知行合一,竟然是高度吻合的。
我們就按大師們的建議來。