小孩子,小问题;大孩子,大问题

小孩子,小问题;大孩子,大问题

最近,我曾和一个同事聊起子女的话题,对于在子女培养过程中所面临的各种挑战,我们彼此分享了各自的一些故事。同事正处在子女培养的起步阶段,他的孩子一个一岁,一个三岁,而我则接近孩子培养的最后阶段(当然,我希望是这样),我的子女都已经长大成人,分别是18岁和21岁。在我们讨论的过程中,我想起一句话“小孩子,小问题;大孩子,大问题”,同时回想起在子女成长过程中我们所采取的不同教育方式。彼此交流引发了我的思考:这是不是类似于小规模数据质量和大规模数据质量的问题?对于这两种情况,我们是不是需要不同的处理方法?

随着大数据项目变得越来越普遍,这些项目对越来越多的企业也产生了越来越大的影响。同子女培养一样,数据量越大,数据质量问题带来的影响也越大。对于100万条数据记录而言,1%的错误相当于有1万条坏记录;然而,对于10亿条数据记录而言,1%的错误就相当于有1000万条坏记录。那真是一场灾难!

大数据的质量问题表现为很多种方式:

信心被侵蚀——数据的准确性会受到质疑,用户将不再愿意使用那些依赖大数据环境输出结果的系统,直到他们打消对数据质量的疑虑;

效率低下问题增多——重复工作和数据返工意味着用于假设验证、洞察力获取和创新的时间会变少;

有缺陷的决策——错误决策不仅会影响企业的未来,还会对个体层面造成负面影响,例如:基于坏数据进行的医疗决策,以及操控道路上无人驾驶汽车等情况。

重新回到我的问题上,就像培养小孩子和大孩子一样,对于大数据质量问题,我们是否需要一种不同的方法呢?答案是肯定的。与“小规模数据”不同,进入你的大数据环境的数据,其规模、复杂度和速度所呈现的数量级使对这些数据进行全面清洗,只能是不切实际的幻想,而且回报也是微不足道的。因此,企业可以采取的大数据质量处理方法包括:

决定需要清洗哪些数据——无需对那些快要失去意义的数据要素进行清洗,也无需对那些你认为足够好并能准确反映一般趋势的数据进行清洗;

实现过程自动化

——为业务用户和数据科学家提供预先设定的数据质量规则,并应用可能的人工智能技术,使他们可以理解数据的特性,识别问题,并采取补救措施;

实现标准化和复用——部署数据治理服务,进而集中管理通用的数据质量规则,对特定的数据域进行优化,并在整个企业内共享;

持续监控——随着新数据的流入,你需要对数据质量进行剖面分析和度量,让业务和IT人员能够清楚地了解任何趋势问题,从而使他们可以做出有针对性的响应。

对于大数据环境中的数据质量问题,采取合适的处理方法可确保数据能够满足其所在的使用场景对质量等级的要求。正如在培养大孩子时必须采取正确处理方法一样,你需要相信他们在生活中做出的选择和决定。


本文作者:Informatica销售与市场运营部Donal Dunne。Donal Dunne曾在创业公司和财富500强企业工作多年,在软件销售、销售运营与市场营销行业拥有20余年的丰富经验。


分享到:


相關文章: