「蜂巢學院」何建平:網絡系統中的數據隱私—量化、分析和設計

10月31日,萬向區塊鏈蜂巢學院聯合矩陣元舉辦了“區塊鏈+隱私計算與數據隱私保護”的分享活動,上海交通大學副教授何建平發表了《網絡系統中的數據隱私:量化,分析和設計》的主題演講,從隱私的量化的角度給大家介紹了保護算法分析與設計,帶領大家從技術上深入瞭解數據隱私保護。以下為何建平教授演講全文,有部分不影響原意的刪減:


「蜂巢學院」何建平:網絡系統中的數據隱私—量化、分析和設計

何教授在演講


大家下午好,今天我演講的題目是《網絡系統中的數據隱私:量化,分析和設計》。今天的演講主要分為四個方面:背景介紹、量化隱私、分析設計、趨勢設計

背景介紹

隨著互聯網的發展以及各種智能設備、智能傳感器的出現,我們已經到了信息爆炸的階段。大數據的時代已經到來,在生活當中各個領域:商業大數據、農業大數據、醫療大數據以及工業大數據。


我們基於大數據可以做什麼事情,有了這些數據之後可以進行算法設計、優化、預測,可以進行基於數據的控制和維護等等。從工業角度來說,可以通過大數據的分析提升工業生產的製造效率和質量,支持工業設備進行節能降耗。從互聯網的思維來看,基於數據分析可以得到用戶的喜好、偏好,可以基於這些分析的結果做一些廣告的東西,商家可以更加的瞭解用戶,最終推出用戶更喜好的產品。


大數據的實用性決定了其價值,狹義的大數據通常指的是專門用於大數據的軟件、硬件及服務。我們根據IDC和Wikibon等預測,全球的大數據核心產業規模約為200-300億美元,據中國信息通信研究院預測,2017年我國大數據產業規模達到4700億,現在還在持續的增長,增速達到30.6%,預計在今年可以達到6200億人民幣。增長速度在未來的2年內還會進一步維持。


大數據時代下,數據是一個雙刃劍,給我們帶來便利的同時,當然也可以給我們帶來很多問題,最主要的問題就是隱私的問題。今年已經出現了很多隱私洩露的事件。印度10億公民身份數據庫得到攻擊,這些信息都已經洩露、名字、電話號碼、郵箱、指紋、虹膜等等都洩露了。今年3月份,一家英國的數據分析公司通過調查問卷的方式收集到Facebook 5000萬用戶的信息,用來做政治上的操作,對Facebook造成了很大的損失。一方面,互聯網企業利用大數據給我們很多用戶提供了很多的便利,從個人消費者來說,我們享受便利的同時,也有新的擔心,就是各種隱私的信息遭到了洩露。如果利用大數據為生活帶來便利的同時,利用技術手段保護用戶的隱私這是一件非常有意義的事情。


大數據時代下,關於隱私有如下問題:

l 如何保護隱私?

l 怎麼刻畫隱私保護的程度?

l 數據的有用性和隱私之間的關係?

l 如何防護和優化?

l 大數據下的隱私保護新技術趨勢?

量化隱私

為了回答上述問題我們首先需要了解隱私是如何被保護的,目前常用的隱私保護方法主要有兩大類,加密加噪聲


加密主要是指以算法的形式改變原有的信息數據,將明文進行加密處理後進行發送,收到數據的一方用已掌握的密鑰對密文解密,從而還原出原始數據。未被授權的用戶即使收到了信息,由於沒有掌握密鑰仍然無法獲得原始數據。加密通常有兩種,一種是對稱加密,第二種是非對稱加密。對稱加密中加解密使用相同密鑰,非對稱加密中加解密使用不同密鑰。但是加密方式存在一些問題,密鑰有可能被丟,對稱加密算法簡單但容易破解,非對稱複雜性高,但是要用數據的時候效率非常低。


另一種隱私保護方法是加噪聲。這種保護隱私的方式有其優點:首先,它具有量化標準來評價隱私保護的等級;而且,通過設計噪聲添加機制,在保護隱私的基礎上可以保證數據的可用性。常見的添加的噪聲有:拉普拉斯噪聲、高斯噪聲、均勻噪聲,下圖是它們的分佈情況:

「蜂巢學院」何建平:網絡系統中的數據隱私—量化、分析和設計


我個人比較喜歡加噪法,數據永遠掌握在自己手裡最安全的。加密你要用的話肯定要有一個解密的方法,一旦這個解密的方法洩露出去了,別人總是能看到的。


差分隱私

2006年C.Dwork提出差分隱私的概念,為隱私保護提供了一種量化評估方法。


若ϵ為一正實數,A為某一隨機算法,如果對於兩個只相差一個元素的相鄰數據庫D1和D2,以及所有的S∈Range(A),存在:

「蜂巢學院」何建平:網絡系統中的數據隱私—量化、分析和設計

那麼隨機算法A可以實現ϵ-差分隱私,這裡Range(A)代表隨機算法A 的輸出範圍。


如下圖,假設X和Y是比較近似的兩個數據,A是你要去保護的技術,你是隱私保護的方法,在A作用下以後,兩個數據的輸出,給大家可以看到的O應該是差不多的,在這種情況下我們稱之為隨機保護的機制是差分隱私。差分隱私已經被蘋果、谷歌公司應用於它們的產品當中來保護用戶隱私。

「蜂巢學院」何建平:網絡系統中的數據隱私—量化、分析和設計

分析設計

英國數據公司Cambridge Analytica通過調查申請收集了Facebook用戶的信息,並將其濫用於政治目的,超過8000萬Facebook用戶的個人資料受到威脅,這一醜聞曝光後,Facebook損失了數百億美元。這個事情背後的原因是:

l 第三方服務請求過多信息

l 用戶不知道共享信息的潛在威脅


究其原因主要是這兩點,針對這樣一個事情,我們設計了一個全新的第三方信息共享的框架。我們的研究目標是通過控制與第三方共享的信息,最大限度地實現隱私保障下地安全自我信息披露,所謂自我隱私披露指的是我為了享受社交網絡帶給我的正常的服務而願意暴露的個人信息,為了通過巧妙地隱藏用戶信息有效降低推理攻擊的準確,減少對用戶體驗的損害,滿足不同用戶的隱私問題,我們提出了兩種隱私保護數據共享算法,EPPD和D-KP,分別側重於最大化用戶體驗和降低計算複雜度。


如下圖所示是我們的系統實現的展示,在原有的第三方系統認證OAuth2基礎上引入了我們的隱私保護算法。左圖我們給用戶提供了一個對第三方服務信任度選擇的接口,並且清楚的告訴用戶第三方所請求的各項服務,方便用戶決定暴露多少的個人信息。

「蜂巢學院」何建平:網絡系統中的數據隱私—量化、分析和設計


通過在實際的數據集上仿真,我們可以看出引入了我們提出的算法之後能夠大大降低推理攻擊,對於機器學習推測用戶習慣,我們的算法大大降低了常見分類器的準確性,保證了就算攻擊者在一個應用上學習到了我的一些用戶習慣,也不能如法炮製到下一個軟件。可見我們的算法在最大限度地提高用戶數據公開度的基礎上提供了更強的隱私保護。


「蜂巢學院」何建平:網絡系統中的數據隱私—量化、分析和設計


「蜂巢學院」何建平:網絡系統中的數據隱私—量化、分析和設計


隨著大型互聯網系統的快速發展,各種靈活多變的系統架構模型層出不窮,主要分為集中式和分佈式兩大類:

l 集中式:依賴中心節點,一旦中心節點遭到攻擊,整個系統性能都會受到影響,可拓展性差

l 分佈式:不存在中心化的節點,任意節點的權利和義務都是均等的,系統中的數據塊由整個系統中具有維護功能的節點來共同維護,任一節點停止工作都會不影響系統整體的運作


分佈式數據統計正是分佈式系統的重大應用之一。與傳統的數據統計不同:分佈式數據利用分佈式技術對數據進行統計和學習,將原先集中在單節點上的龐大計算任務均衡的分派給若干臺可相互通信的計算機上並行處理。分佈式數據統計提供異構的隱私保護一致性框架,這種方法既能準確統計結果,又量身定製般地為每個用戶的隱私不同程度地保護。


我們提出了兩階段框架。首先將用戶分為不同小組,白色節點表示數據服務器,N個數據服務器構建成分佈式網絡。一個數據服務器負責從一組用戶中收集數據。


階段一:服務器蒐集用戶數據

不同的數據服務器從不同的用戶組收集私有數據,從用戶的角度考慮,用戶認為直接上傳數據的服務器有洩密風險,因此在數據報告之前,用戶首先用高斯噪聲擾亂其數據。而噪聲方差由用戶的隱私需求決定。


階段二,服務器協作統計數據

當所有服務器完成數據聚合後,如何統計整個用戶群體的結果呢?服務器網絡執行一致性算法,在一致性過程中,服務器節點要將自己的信息釋放出去獲得相鄰服務器節點的信息從而更新自身的狀態。


下圖顯示了框架的整個工作流程:

「蜂巢學院」何建平:網絡系統中的數據隱私—量化、分析和設計


首先,節點向服務器報告具有高斯噪聲擾動的數據, 相當於一層防火牆。加噪聚合後,收集節點數據的服務器提供的用戶隱私保護度增大,相當於自動增強了防火牆 。最後,多個服務器協作執行共識計算。


總的來說,我們的異構隱私保護方案有三大優點: 用戶上傳,安全聚合以及共識計算。


我們該如何選擇添加的噪聲以滿足用戶的個人隱私需求,並且保證數據發佈的效用行呢?為了研究這一問題,我們首先需要對問題建模。


「蜂巢學院」何建平:網絡系統中的數據隱私—量化、分析和設計

模型一

在模型一中,我們站在數據收集方考慮,既需要保證用戶的隱私確保用戶還願意給自己提供數據,同時需要保證數據的可用性,故而目標函數建立為隱私和效用性的加權。


「蜂巢學院」何建平:網絡系統中的數據隱私—量化、分析和設計

模型二

模型二中,我們考慮在實際生活中,隱私是個人的標準,每個人可能有不同的隱私保護需求,當達到一定的隱私保護水平後,如何最大化數據的效用性是具有實際指導意義的,故而我們將目標函數設置為數據的效用性,限制條件為每個人不同的隱私保護要求。


對上述兩種模型我們通過一定合理的假設並給出結論,為了得到最優的整體效益(最大化隱私保護和可用性之和)的噪聲是均勻噪聲。在保證一定隱私的情況下,為了得到最大的數據發佈可用性的噪聲添加機制是均勻離散噪聲,如下圖所示:

「蜂巢學院」何建平:網絡系統中的數據隱私—量化、分析和設計

趨勢分析

區塊鏈作為一種特殊的分佈式數據庫,是沒有管理員的,徹底無中心的,一個個相連的區塊(block)組成。區塊很像數據庫的記錄,每次寫入數據,就是創建一個區塊,是分佈式數據存儲、點對點傳輸、共識機制、加密算法等計算機技術的新型應用模式。以前是靠信譽、靠百年老店、權威機構等,區塊鏈利用技術建立了新的信任方式,這是可以被量化的,從技術的角度實現的,所以說區塊鏈成為了下一個信任的基石。目前區塊鏈的隱私性主要通過匿名方式來保證,然而這種方式有可能被破解——對公開的交易賬本信息進行資金流分析。


怎麼樣完善這個機制呢?當然有一些新的機制出來:

l P2P混合機制:若干用戶簽訂協議,將多個交易混合成一個標準的交易,將多個提供者和接收者分別隨機排序,我們也無法知道某一筆資金是從哪一個代號流入到哪一個代號。通過破壞交易的連續性,可使得建立代號之間的關聯更為困難。

l 分佈式混淆網絡:多個用戶都會和某一個第三方機構達成如下協議:我先交付給該機構10個幣,過一段時間後,該機構會返還給我10個幣。通過這種方式,外部人員很難捕獲交易之間的關聯信息。但是,這種方式也面臨著第三方機構不歸還資金的風險。

l 零知識證明:資金提供者並不需要通過提供自己的身份信息來驗證資金的有效性,而只需證明該筆資金屬於一個有效資金的公共列表。


如何在區塊鏈中滿足個人、企業、政府等對保護數據隱私要求,推動區塊鏈技術規模化落地應用必須要解決的難題。

蜂巢學院簡介

「蜂巢學院」是萬向區塊鏈傾力打造的線下活動品牌,持續關注區塊鏈相關領域前沿技術與熱點話題。匯聚全球範圍內最具影響力的意見領袖、行業先鋒、創業達人、專家學者等,通過小範圍的面對面深度交流,力求記錄全新科技改變我們所生活時代的每一個重要瞬間。而時代的浪潮之中,面對無限可能的未來,我們每一個人,都是求知者和見證者。


分享到:


相關文章: