数据脱敏的“连环计”,原来业务定义和技术实现如此简单!

在大数据时代,收集和分析特定消费者行为数据成为可能,数据分析公司可以将分析结果卖给希望提高营销和销售业绩的公司,但这势必会引发人们对个人隐私问题的担忧。根据大数据的特点,以及大数据使用的业务动机,最关键的隐私问题是数据的准确性以及企业使用这些数据来作出决定而可能会对个人产生的负面影响。

数据安全是大数据领域的关键关键环节,也是不可规避的保障措施,那么今天就来谈谈数据安全领域的数据脱敏供大家学习与交流。数据脱敏与隐私保护其实可以通过不同的角度看待。

首先是业务层面:要先考虑脱敏处理的等级,即根据数据运营的需求选择相应的手段,并非所有的大数据都涉及到客户的个人隐私问题。很多大数据是统计数据或与个人无关的数据,这些数据不涉及个人隐私泄露问题,只有带个人敏感数据的信息才需要进行数据脱敏处理。

a、不涉及用户信息与个人隐私的数据,这部分数据无需进行脱敏处理,不会引起隐私泄露;

b、涉及用户信息的统计类数据,这部分数据需要选择性的进行脱敏处理,最终形成不构成威胁的信息;

c、涉及用户个人信息的数据,这部分数据需要进行严格脱敏处理,不能将用户个人信息泄露;

数据脱敏的“连环计”,原来业务定义和技术实现如此简单!

比如图中所示:针对位置类数据(电信行业、地图厂商、互联网公司)的合理利用,可以获悉用户实时位置数据分析人群流向,在政府市政服务市场上前景巨大。在此分析过程中不涉及任何用户的具体隐私信息,只涉及对无特定行为的群体位置变化进行统计,所以不需要对大数据进行脱敏处理。

数据脱敏的“连环计”,原来业务定义和技术实现如此简单!

再比如,利用大数据推荐相关服务,这将直接涉及用户隐私的大数据业务,需要进行严格的脱敏控制处理!

用户在日常生活中很多地方会留下个人信息,如真实的姓名,身份证号码,手机号码,家庭住址,健康状况等信息;

在涉及用户个人隐私方面的大数据应用要谨慎严格的进行数据脱敏,谨慎处理;

目前企业获取用户数据和使用分析的途径、方法、技术手段越来越丰富,我们经常发现前脚刚买了新车,后续就有其他周边服务推荐而来;或者前脚刚看完电影,后续就有配套服务的营销推荐;再或者前脚刚装修结束,后续就有保洁服务的电话……个人隐私数据的泄露与安全问题太司空见惯了。对于那些不法分子和黑心企业来讲,我们个人客户对他们确实无可奈何,但对于那些高口碑、高影响、高价值的大型企业来讲,在看待数据安全的事情上还是非常谨慎而守法的,这些严谨、守法的大数据企业其实也制定了一系列隐私保护安全章程,具体包括:

对于此类涉及到用户个人隐私的大数据分析服务,既要进行必要的数据脱敏,又不能使得数据失去价值。

首先要将无关数据全部隐藏,并将某些受法律保护的数据加密保护起来;

其次要建立一套完善的严格的数据访问权限控制机制,最大限度的有效管理数据访问权限;

最后要建立长效的监督制约机制,要求数据处理和使用者承担相应的法律责任,以规范其数据使用行为。

数据脱敏的“连环计”,原来业务定义和技术实现如此简单!

有了这些管控方法,其实还需要通过相应的技术手段保障个人隐私数据的安全,这里面涉及到一些关键方法和技术术语,包括数据加密/解密、库表数据内容泛化、SQL服务访问调用、以及外部访问控制等。简单的一句话解释就是:对用户数据进行加密,且在使用的过程中不对其解密,就能确保用户访问的信息和数据安全。

对于这类场景其实主要还是从企业内部数据管理的角度进行干预,并非涉及到数据开放和共享的安全举措,其实是纯库表级别的访问安全。它的技术实现大体是这样的:业务系统的用户敏感数据,存储在库表中(Hive、Hbase或传统关系型数据库),首先要通过加密算法或者UDF函数,对敏感信息进行加密,实现核心层的安全保护;与此同时业务人员或者数据分析师在执行SQL查询的时候,要通过一层SQL服务调用接口实现安全控制,这个服务调用就是SQL改写机制,比如某where查询语句,返回值将被改写或泛化,从而实现数据脱敏。当然这还需要对库表数据进行脱敏处理规则的制定和实施,设计泛化原则。

要实现对用户提交查询的明文SQL转换为密文SQL,并访问库表中的加密数据,返回密文结果集;整个过程包括如下技术:

SQL改写——如:拟查询库表中的where条件,返回值将被改写或泛化;

UDF加密——自定义函数加密,防止加密函数的破解;

这就是今天分享的内容,也是数据脱敏的主要业务范畴和技术手段。


分享到:


相關文章: