一、大数据预处理的几个步骤
1.数据预处理
2.数据清洗
3.数据集成
4.数据归约
5.数据变换
6.数据离散化
7.大数据预处理
二、数据预处理
现实中的数据大多是“脏”数据:
①不完整 缺少属性值或仅仅包含聚集数据
②含噪声 包含错误或存在偏离期望的离群值 比如:salary=“-10”,明显是错误数据
③不一致 用于商品分类的部门编码存在差异 比如age=“42”Birthday=“03/07/1997”
而我们在使用数据过程中对数据有如下要求:
一致性、准确性、完整性、时效性、可信性、可解释性
由于获得的数据规模太过庞大,数据不完整、重复、杂乱,在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间。
閱讀更多 走向智能 的文章