機器學習項目課程記錄-開班-001

對機器學習的項目理解,學習分析業務如何解決?

機器學習項目課程記錄-開班-001

數據分析概述

機器學習項目課程記錄-開班-001

機器學習,數據分析,數據挖掘的區別和聯繫

機器學習項目課程記錄-開班-001

數據分析的應用場景

機器學習項目課程記錄-開班-001

預測模型和建模及分析,也可以做股票建模… 個性化推薦

機器學習項目課程記錄-開班-001

機器學習項目課程記錄-開班-001

  又例如,線下店的選取如何去敲定位置 ,要考慮因素的是什麼,例如買家的位置信息,可以用聚類算法K-means,真實業務對接算法。

機器學習的開發流程

機器學習項目課程記錄-開班-001

重點

數據清洗:關鍵的是選取那些是重要的特徵,缺失值(NAN),重複值(過擬合問題),去除噪音… 特徵工程:獨熱編碼,特徵縮放…

機器學習項目課程記錄-開班-001

這個流程可能是大半年的上線部署過程!!!

機器學習項目課程記錄-開班-001

Flume:流的形式;Kafka:消息隊列;

機器學習項目課程記錄-開班-001

機器學習項目課程記錄-開班-001

對於房屋面積,數值明顯很大,如何x1w1+x2w2+b,明顯x1不做處理x1=2104和x2=3,這x2就沒意義了(太小)啦兄弟。就要做特徵縮放咯啦!! 還得說說啥玩意是正則化: 正則化的概念及原因 簡單來說,正則化是一種為了減小測試誤差的行為(有時候會增加訓練誤差)。我們在構造機器學習模型時,最終目的是讓模型在面對新數據的時候,可以有很好的表現。當你用比較複雜的模型比如神經網絡,去擬合數據時,很容易出現過擬合現象(訓練集表現很好,測試集表現較差),這會導致模型的泛化能力下降,這時候,我們就需要使用正則化,降低模型的複雜度。

機器學習項目課程記錄-開班-001

標準化後是類似標準正態分佈的咯!標準化比歸一化更加常用,可能因為歸一化後數據會為0(0*權重就不太好了).

機器學習項目課程記錄-開班-001

方法四的性別問題就是升維的過程!

機器學習項目課程記錄-開班-001

帶權學習比較好,但是不是每一個算法都支持這個帶權學習! 看看樸素貝葉斯的算法中 有這東西的講解,可以去我博客中找找哦!祝你好運!

機器學習項目課程記錄-開班-001

接下一篇文章002

再寫就看不下去了!!!


分享到:


相關文章: