大數據預處理七步(一):數據預處理

一、大數據預處理的幾個步驟

1.數據預處理

2.數據清洗

3.數據集成

4.數據歸約

5.數據變換

6.數據離散化

7.大數據預處理

二、數據預處理

現實中的數據大多是“髒”數據:

①不完整 缺少屬性值或僅僅包含聚集數據

②含噪聲 包含錯誤或存在偏離期望的離群值 比如:salary=“-10”,明顯是錯誤數據

③不一致 用於商品分類的部門編碼存在差異 比如age=“42”Birthday=“03/07/1997”

而我們在使用數據過程中對數據有如下要求:

一致性、準確性、完整性、時效性、可信性、可解釋性

由於獲得的數據規模太過龐大,數據不完整、重複、雜亂,在一個完整的數據挖掘過程中,數據預處理要花費60%左右的時間。

大數據預處理七步(一):數據預處理

圖1


分享到:


相關文章: