一、大數據預處理的幾個步驟
1.數據預處理
2.數據清洗
3.數據集成
4.數據歸約
5.數據變換
6.數據離散化
7.大數據預處理
二、數據預處理
現實中的數據大多是“髒”數據:
①不完整 缺少屬性值或僅僅包含聚集數據
②含噪聲 包含錯誤或存在偏離期望的離群值 比如:salary=“-10”,明顯是錯誤數據
③不一致 用於商品分類的部門編碼存在差異 比如age=“42”Birthday=“03/07/1997”
而我們在使用數據過程中對數據有如下要求:
一致性、準確性、完整性、時效性、可信性、可解釋性
由於獲得的數據規模太過龐大,數據不完整、重複、雜亂,在一個完整的數據挖掘過程中,數據預處理要花費60%左右的時間。
閱讀更多 走向智能 的文章