01.08 數據建模常見的套路

數據分析是一個檢查、清理、轉換和數據建模的過程,目的是發現有用的信息、提出結論和支持決策依據。數據建模是數據分析裡的一項,數據建模裡又有一些常見的套路:選擇變量與重構變量、選擇算法、設定參數、加載算法和測試結果。

選擇變量與重構變量

數據分析師在拿到數據時(不管是自己爬取還是數據框裡提取的)不是對所有的變量都要進行分析或者納入到模型裡,有許多變量起不到數據“分析”的任務(比如列號,也是數據集裡的變量),有的變量跟數據分析師所需要達到的目的沒有關係,這就是選擇變量的重要性,一般來說選擇變量有兩個標準:數據邏輯和業務參考。

數據邏輯

所謂數據邏輯,一般從數據的完整性、集中度和變量相關性(有時候還有考慮因果關係)等角度考慮,一個變量缺失率達到80%,或者一個非布爾值變量但卻集中兩個值……這些都要考慮加入這些變量後是否對後面的分析有價值。

業務參考

變量基於收集到的數據,在做目標性的數據分析時會產生與業務產生關聯,比如共享單車數據集車輪胎這個變量裡,輪胎數不會是1或者3吧,在接下來的建模中,業務知識告訴你是不會選擇這個變量的。

選擇算法

業務數據分析師所要做的就是要用數據分析解決商業問題,而不是為了建立模型而建模,因此要根據業務背景和所要達到的目的選擇模型,根據挖掘目標和數據形式可以建立分類與預測、聚類分析、關聯規則、時序模式、偏差檢測等模型,幫助企業提取數據中隱藏的商業價值,從以前的主觀決策轉向更科學的數據決策,提高企業的競爭力。下面列舉了一些常見的業務背景和對應的常用算法。

--劃分消費群體:聚類、分類

--滿意度調查:迴歸、聚類、分類

--購物籃分析:相關、聚類

--購買額預測:迴歸、時間序列

--滿意度調查:迴歸、聚類、分類

設定參數

確定好要用那種模型後,就需要對模型進行調查參數,比如經典的聚類分析裡的K均值算法就需要給定K的值(希望聚成的類別數量),參數有時候不是一次就能確定好的,需要多次的調整,達到最優的效果。

加載算法與測試結果

模型建立好後需要驗證與測試,要根據算法輸出結果來確定該算法是否能夠解決業務問題,比如聚類算法裡除了K均值算法還有系統聚類等,要是K—means的結果不太好就要考慮其他的算法,又或者回歸模型輸出結果不滿足需求,考慮時間序列模型來做;若不需要換算法,還要測試一下輸出的結果是否有提示的空間,如聚類分析裡的聚類結果有四類,通過可視化發現有兩類的特徵很相近,區分度不明顯,這就造成有很大部分的類處於很模糊的位置,所以就很需要調整參數來優化模型,在不斷調參優化模型的過程中,模型的解釋性和實用性會得到提升,當模型能夠滿足業務需求,那就可以輸出結果。

這是通常建模的一般流程,而建模只是數據分析裡其中一項;流程的熟悉、業務的理解、算法理論及代碼的熟練等等都是考驗一個數據分析師的能力;最後希望這篇文章能夠幫助到你建模時構建一個框架,而不至於在建模時不知道幹嘛;在學習的道路上你我共勉!


分享到:


相關文章: