機器學習框架之sciket-learn

機器學習是一門從數據中研究算法的科學,機器學習直白來講,是根據已有的數據,進行算法選擇,並基於算法和數據構建模型,最終對未來進行預測;機器學習常用框架有:sciket-learn、Mahout、和Spark MLlib,網上有很多關於sklearn的學習教程,大部分都是簡單的講清楚某一方面,因此今天我重點梳理了sciket-learn的相關知識,希望對正在學習機器學習的朋友有所幫助,感興趣的朋友可以關注我哦,謝謝!

機器學習之商業場景:個性化推薦、精準營銷、客戶細分、預測建模及分析。

數據分析、數據挖掘、機器學習的區別:

  1. 數據分析是指用適當的統計分析方法對收集的大量數據進行分析,並提取有用的信息,以及形成結論,從而對數據進行詳細的研究和概括過程,數據分析分為統計分析、探索性數據分析和驗證性數據分析三大類;
  2. 數據挖掘:一般指從大量的數據中通過算法搜索隱藏於其中的信息的過程。
  3. 機器學習:是數據分析和數據挖掘的一種比較常用、比較好的手段。

機器學習分類:有監督學習、無監督學習、半監督學習;

  1. 有監督學習有判別式模型和生成式模型,常見見判別模型有:線性迴歸、決策樹、支持向量機SVM、k近鄰、神經網絡等;常見生成式模型有:隱馬爾可夫模型HMM、樸素貝葉斯模型、高斯混合模型GMM、LDA等;
  2. 無監督學習一般是作為有監督學習的前期數據處理,功能是從原始數據中抽取出必要的標籤信息。常見的算法有聚類、降維、文本處理(特徵抽取)等。
  3. 半監督學習(SSL):主要考慮如何利用少量的標註樣本和大量的未標註樣本進行訓練和分類的問題。SSL主要分為三大類:平滑假設、聚類假設、流行假設;其中流行假設更具有普片性;SSL類型的算法主要分為四大類:半監督分類、半監督迴歸、半監督聚類、半監督降維。

機器學習常用算法有:C4.5、 CART、 kNN、 NaiveBayes、 SVM、 EM、 Apriori、 K-Means、 PageRank 、AdaBoos。

機器學習、人工智能和深度學習的關係:深度學習是機器學習的子類;深度學習是基於傳統的神經網絡算法發展到多隱層的一種算法體現,機器學習是人工智能的一個子類。

機器學習開發流程:數據收集→數據預處理→特徵提取→模型構建→模型測試評估→投入使用→迭代優化。

機器學習框架之sciket-learn官方文檔:https://scikit-learn.org/stable/index.html如下:

機器學習框架之sciket-learn

這裡面有豐富的應用介紹及實例


分享到:


相關文章: