大数据:数据清洗流程

数据清洗的基本原理是通过分析“脏”数据的产生原因和存在形式,利用数据溯源的思想,从“脏”数据产生的源头开始分析数据,对数据流经的每一环节进行考察,从中提取数据清洗的规则和策略,基于已有的业务知识对原始数据集应用数据清洗规则和策略来发现“脏”数据,并通过特定的清洗算法来清洗“脏”数据,从而得到满足预期要求的数据。

大数据:数据清洗流程

1,分析数据并定义清洗规则

首先定义错误类型,通过全面详尽的数据分析来检测数据中的错误或不一致情况,包括手工检查数据样本和通过计算机自动分析程序来发现数据集中存在的缺陷。然后,根据数据分析的结果来定义数据清洗规则,并选择合适的数据清洗算法。

2,搜寻并标识错误实例

手工检测数据集中的属性错误需要花费大量时间和精力,成本高昂且这个过程本身容易出错。因此,一般倾向于利用高效的检测方法来自动榴寻数据集中存在的各娄错误,佩括数。据佰是否符合字段域、业务规则,或是否存在重复记录等。常用的检测方法主要有:基于统计的方法、 聚类方法和关联规则方法。消除重复记录首先要检测出标识同一个实体的重复记录,即匹配与合并过程。检测重复记录的算法主要有:字段匹配算法、Smith-Waterman算法和Cosine相似度函数。

3,纠正发现的错误

在原始数据集上执行预定义并已得到验证的数据清洗转换规则,修正检测到的错误数据,或处理冗余和不一致的数据。需要注意,当在源数据上进行数据清洗时,应备份源数据,以防需要撤销清洗操作。根据“脏”数据存在的形式,执行一系列的数据清除和数据格式转换步骤来解决模式层和实例层的数据质量问题。为了使数据匹配和合并变得方便,应该将数据属性值转换成统一的格式。

4,“干净”数据回流

当完成数据清洗后,应用文档记录错误实例和错误类型,并修改数据录入程序以减少可能的错误。同时,用“干净”的数据替换原始数据集中的“脏”数据,以便提高信息系统的数据质量,还可避免再次抽取数据后进行重复的清洗工作。,

5,数据清洗的评判

数据清洗执行完毕后,有必要对数据清洗的效果进行评价。数据清洗的评价标准主要包括两个方面:数据的可信性和数据的可用性。数据可信性包括数据精确性、完整性、一致性、有效性和唯一性等指标。精确性描述数据是否与其对应的客观实体的特征相一致;完整性描述数据是否存在缺失记录或缺失宇段:一致性描述同一实体的同一属性的值在不同的系统是否一致:有效性描述数据是否满足用户定义的条件或在一定的阂值范围内;唯一性描述数据是否存在重复记录。

数据的可用性考察指标主要包括时间性和稳定性。时间性描述数据据还是历史数据;稳定性描述数据是否是稳定的,是否在其有效期内。

需要指出的是,数据清洗是一项十分繁重的工作,数据清洗在提高数据质量的同时要付出一定的代价,包括投入的时间、人力和物力成本。通常情况下,大数据集的数据清洗是一个系统性的工作,需要多方配合以及大量人员的参与,还需要多种资源的支持。


分享到:


相關文章: