在進行大數據分析之前都需要進行數據清洗,如何進行數據清洗?

沒有合格的食材,再好的廚師也做不出絕世佳餚;沒有合格的鋼材,再好的建築師也造不出摩天大樓;沒有合格的數據,再好的數學家也挖掘不出其中的價值。

在進行大數據分析之前都需要進行數據清洗,如何進行數據清洗?


數據為什麼要清洗呢?顧名思義,就是因為數據倉庫中的數據在生產、運輸、存儲過程中“髒”了,或者方便使用,需要進行規整規整,所以需要清洗。數據的“髒”在於數據有重複、數據有缺失、數據有不一致,數據清洗的目的就是為了刪除重複數據、補齊缺失的數據、消除數據的不一致,保證數據質量,支撐數據挖掘。

在進行大數據分析之前都需要進行數據清洗,如何進行數據清洗?


【數據清洗原理】

數據清洗從整體上看,是一個人工預處理與機器自動處理相結合的過程,其基本原理是在完成人工預處理之後,利用有關技術如數理統計、數據挖掘或預定義的清理規則將髒數據轉化為滿足數據質量要求的數據。

在進行大數據分析之前都需要進行數據清洗,如何進行數據清洗?


【數據清洗步驟】

1)重複數據清洗

對於重複冗餘數據需要採用規則加以去除,如通過相同的關鍵信息匹配進行去重,也可以通過主鍵進行去重。

2)缺失數據清洗

對於一些應該有的信息發生缺失,一般有兩種情況:一種是設備採集的數據發生缺失,第二種是人工錄入數據發生缺失、另外一種是Excel導入數據發生缺失。對於第一種缺失需要對設備進行改進或採集軟件進行優化,第二種可以通過在錄入數據頁面進行必填項控制,並對數據有效性進行驗證,而對於第三種則需要人工進行補錄。

3)錯誤數據清洗

對於格式錯誤數據,可以通過格式轉化規則自動進行處理;對於內容錯誤數據可以通過頁面規則設定方式進行限制,減少內容錯誤;對於邏輯錯誤數據,則需要編寫與業務相關的判讀規則來實現數據的確認或剔除。

4)關聯性驗證

如果你的數據有多個來源,那麼有必要進行關聯性驗證。例如針對同一型號、不同業務系統保存的數據本身具有一定的關聯性,需要進行關聯性驗證後才能確定是否需要去重或合併。

在進行大數據分析之前都需要進行數據清洗,如何進行數據清洗?


【數據挖掘清洗】

為了滿足數據挖掘的需要,數據還需要進行以下類別的清洗:

1) 降維:主成分分析或隨機森林

2) 升維:彙總、離散化、聚類等

3) 字段冗餘:剔除冗餘字段

4) 歸一化:最小-最大法、零-均值法等

在進行大數據分析之前都需要進行數據清洗,如何進行數據清洗?


總結

當然數據清洗是一個反覆的過程,不可能一蹴而就,只有不斷地發現問題並解決問題,持續優化才能達到效果。比如發現清洗規則過於嚴格,可能導致有用數據被剔除,則需要對規則進行修改。有的可能只需要軟件人員修改算法、加強界面約束就能提高數據質量,而有的清洗功能需要業務人員或客戶進行確認,而有的必須經過人工補錄才能夠保證數據質量。


分享到:


相關文章: