數據脫敏的「連環計」,原來業務定義和技術實現如此簡單!

在大數據時代,收集和分析特定消費者行為數據成為可能,數據分析公司可以將分析結果賣給希望提高營銷和銷售業績的公司,但這勢必會引發人們對個人隱私問題的擔憂。根據大數據的特點,以及大數據使用的業務動機,最關鍵的隱私問題是數據的準確性以及企業使用這些數據來作出決定而可能會對個人產生的負面影響。

數據安全是大數據領域的關鍵關鍵環節,也是不可規避的保障措施,那麼今天就來談談數據安全領域的數據脫敏供大家學習與交流。數據脫敏與隱私保護其實可以通過不同的角度看待。

首先是業務層面:要先考慮脫敏處理的等級,即根據數據運營的需求選擇相應的手段,並非所有的大數據都涉及到客戶的個人隱私問題。很多大數據是統計數據或與個人無關的數據,這些數據不涉及個人隱私洩露問題,只有帶個人敏感數據的信息才需要進行數據脫敏處理。

a、不涉及用戶信息與個人隱私的數據,這部分數據無需進行脫敏處理,不會引起隱私洩露;

b、涉及用戶信息的統計類數據,這部分數據需要選擇性的進行脫敏處理,最終形成不構成威脅的信息;

c、涉及用戶個人信息的數據,這部分數據需要進行嚴格脫敏處理,不能將用戶個人信息洩露;

數據脫敏的“連環計”,原來業務定義和技術實現如此簡單!

比如圖中所示:針對位置類數據(電信行業、地圖廠商、互聯網公司)的合理利用,可以獲悉用戶實時位置數據分析人群流向,在政府市政服務市場上前景巨大。在此分析過程中不涉及任何用戶的具體隱私信息,只涉及對無特定行為的群體位置變化進行統計,所以不需要對大數據進行脫敏處理。

數據脫敏的“連環計”,原來業務定義和技術實現如此簡單!

再比如,利用大數據推薦相關服務,這將直接涉及用戶隱私的大數據業務,需要進行嚴格的脫敏控制處理!

用戶在日常生活中很多地方會留下個人信息,如真實的姓名,身份證號碼,手機號碼,家庭住址,健康狀況等信息;

在涉及用戶個人隱私方面的大數據應用要謹慎嚴格的進行數據脫敏,謹慎處理;

目前企業獲取用戶數據和使用分析的途徑、方法、技術手段越來越豐富,我們經常發現前腳剛買了新車,後續就有其他周邊服務推薦而來;或者前腳剛看完電影,後續就有配套服務的營銷推薦;再或者前腳剛裝修結束,後續就有保潔服務的電話……個人隱私數據的洩露與安全問題太司空見慣了。對於那些不法分子和黑心企業來講,我們個人客戶對他們確實無可奈何,但對於那些高口碑、高影響、高價值的大型企業來講,在看待數據安全的事情上還是非常謹慎而守法的,這些嚴謹、守法的大數據企業其實也制定了一系列隱私保護安全章程,具體包括:

對於此類涉及到用戶個人隱私的大數據分析服務,既要進行必要的數據脫敏,又不能使得數據失去價值。

首先要將無關數據全部隱藏,並將某些受法律保護的數據加密保護起來;

其次要建立一套完善的嚴格的數據訪問權限控制機制,最大限度的有效管理數據訪問權限;

最後要建立長效的監督制約機制,要求數據處理和使用者承擔相應的法律責任,以規範其數據使用行為。

數據脫敏的“連環計”,原來業務定義和技術實現如此簡單!

有了這些管控方法,其實還需要通過相應的技術手段保障個人隱私數據的安全,這裡面涉及到一些關鍵方法和技術術語,包括數據加密/解密、庫表數據內容泛化、SQL服務訪問調用、以及外部訪問控制等。簡單的一句話解釋就是:對用戶數據進行加密,且在使用的過程中不對其解密,就能確保用戶訪問的信息和數據安全。

對於這類場景其實主要還是從企業內部數據管理的角度進行干預,並非涉及到數據開放和共享的安全舉措,其實是純庫表級別的訪問安全。它的技術實現大體是這樣的:業務系統的用戶敏感數據,存儲在庫表中(Hive、Hbase或傳統關係型數據庫),首先要通過加密算法或者UDF函數,對敏感信息進行加密,實現核心層的安全保護;與此同時業務人員或者數據分析師在執行SQL查詢的時候,要通過一層SQL服務調用接口實現安全控制,這個服務調用就是SQL改寫機制,比如某where查詢語句,返回值將被改寫或泛化,從而實現數據脫敏。當然這還需要對庫表數據進行脫敏處理規則的制定和實施,設計泛化原則。

要實現對用戶提交查詢的明文SQL轉換為密文SQL,並訪問庫表中的加密數據,返回密文結果集;整個過程包括如下技術:

SQL改寫——如:擬查詢庫表中的where條件,返回值將被改寫或泛化;

UDF加密——自定義函數加密,防止加密函數的破解;

這就是今天分享的內容,也是數據脫敏的主要業務範疇和技術手段。


分享到:


相關文章: