5步教你如何挖掘數據,早日成爲月入50000的數據大神

流程說明:

暫且總結為五步:1、確立挖掘目的,2、數據準備,3、數學建模,4、模型評估,5、模型應用。

第一步:確立挖掘目的,

確立業務目標 --> 對目標做簡單評估,確立所需要的數據類型,人力資源及風險等, ----> 確立數據挖掘的目標 ---->制定實施計劃

第二步:數據準備

1)、數據選擇:白貓黑貓能抓老鼠就是好貓,只要第一步確立了目標, 奔著這個目標選擇各種與目標相關的數據,公司內部數據,外部行業數據,互聯網數據等。可以爬去公開網站數據等。

2)、數據篩選:判斷數據是否有缺失,如果缺失確定填充缺失字段或者刪除缺失字段,數據類型一致性如日期時間,編碼格式。等

3)、數據轉換:對於結構化數據進行彙總導出排序異常值處理等,非結構化數據進行分詞,情感分析,詞頻統計,去噪音等。

4)、數據優化:深入分析數據,主要清洗噪音數據。修改或刪除異類數據

第三步:數學建模

1)、技術選擇:根據自己技能選擇適合的模型

2)、構建模型:根據數據,構建模型,

3)、模型評估:根據測試如交叉驗證等測試結果,進行參數調優,並且評估各個模型,最終選擇最合適的模型。

第四步:結果評估

根據模型跑出的結果,結合第一步中數據挖掘的目的。根據實際應用的情況,驗證模型是否適合解決實際問題。如果能夠解決,選擇最優的一套模型或者多套模型混合部署在業務應用系統。從而為實際問題服務,如果都沒能解決實際問題。返回重新調整模型或者重建。實踐是檢驗真理的唯一標準。

第五步:模型應用

上一步以說。如果有合適的模型。與業務系統對接。確立最終方案。Do it !!!


分享到:


相關文章: