大数据预处理七步法(二):数据清洗

1.缺失值的处理:

①忽略元组:若有多个属性值缺失或者该元祖剩余属性值使用价值较小时,应选择放弃

②人工填写:该方法费时,数据庞大时行不通

③全局常量填充:方法简单,但有可能会被挖掘程序愚以为形成了又去的概念

④属性中心度量填充:对于正常的数据分布而言可以使用均值,而倾斜数据分布应使用中位数

⑤最可能的值填充:使用回归、基于推理的工具或者决策树归纳确定。

2.噪声数据与离群点:

噪声:被测量的变量的随机误差或者方差(一般指错误的数据)

离群点:

数据集中包含一些数据对象,他们与数据的一般行为或模型不一致。(正常值,但偏离大多数数据)

大数据预处理七步法(二):数据清洗

图1

分箱(binning):通过考察数据周围的值来光滑有序数据值,这些有序的值被分布到一些“桶”或箱中,由于分箱方法只是考虑近邻的值,因此是局部光滑。

大数据预处理七步法(二):数据清洗

图2

分箱的方法:

等宽分箱:每个“桶”的区间宽度相同

等深分箱:每个“桶”的样本个数相同

回归(regression):用一个函数拟合数据来光滑数据。

大数据预处理七步法(二):数据清洗

图3

线性回归找出拟合两个属性(变量)的最佳直线;多元线性回归涉及多个属性,将数据拟合到多维曲面

下图即对数据进行线性回归拟合:

大数据预处理七步法(二):数据清洗

图4

离群点:

2.1 离群点的分类

①全局离群点:个别数据离整体数据较远

②集体离群点:一组数据与其他数据分布方式不同

③情景离群点

大数据预处理七步法(二):数据清洗

图5

2.2 离群点检测的方法

①基于统计的离群点检测:假设给定的数据集服从某一随机分布(如正态分布等),用不一致性测试识别异常。

如果某个样本点不符合工作假设,那么认为它是离群点;如果它符合备选假设,则认为它是符合某一备选假设分布的离群点。

②基于密度的局部离群点检测:通过基于局部离群点检测就能在样本空间数据分布不均匀的情况下也可以准确发现。

大数据预处理七步法(二):数据清洗

图6

③基于距离的离群点检测:如果样本空间D至少有N个样本点与对象O的距离大于d,那么对象O是以至少N个样本点和距离d为参数的基于距离的离群点。

大数据预处理七步法(二):数据清洗

图7

④基于偏差的离群点检测:通过检查一组对象的主要特征来识别离群点,那些些不符合这种特征的数据对象被判定为离群点。

2.3 传统离群点检测的缺点:

①基于统计的算法:不适合多维空间,预先要知道样本空间中数据集的分布特征

②基于距离的算法:参数的选取非常敏感,受时间复杂度限制,不适用于高维稀疏数据集。

③基于偏差的算法:实际应用少,在高维数据集中,很难获得该数据集的主要特征。

---------------------


分享到:


相關文章: