京東數科發佈聯邦學習平臺Fedlearn,助力數據隱私保護

導語:近日,京東數字科技集團(簡稱:京東數科)正式推出自主研發的聯邦學習平臺——Fedlearn,旨在更好地挖掘數據價值,助力數據隱私充分保護,實現多方共贏的機器學習。

伴隨產業數字化發展及城市數字化建設,跨機構跨行業的合作越來越頻繁、政府和企業面臨的場景越來越複雜、數據挖掘的廣度和深度也日益增長,因此機構間數據共享和數據融合的需求也越來越強烈。同時,互聯網數據分散在不同企業或終端而形成"數據孤島"現象也亟需破解,基於此背景,聯邦學習應運而生。聯邦學習定義了機器學習框架,在此框架下,通過設計虛擬模型解決不同數據擁有方在不交換數據的情況下進行協作的問題,可以做到在不洩露隱私數據的情況下實現企業間的數據融合建模。

近日,京東數字科技集團(簡稱:京東數科)正式推出自主研發的聯邦學習平臺——Fedlearn,旨在更好地挖掘數據價值,實現多方共贏的機器學習,在滿足數據隱私安全和監管要求的前提下,讓人工智能系統更加高效準確地共同使用各自數據的機器學習框架。

京東數科發佈聯邦學習平臺Fedlearn,助力數據隱私保護

Fedlearn平臺的三大特點

聯邦學習在產業應用方面此前曾面臨一系列挑戰——由於需要傳遞梯度信息,容易導致基於梯度信息的構造攻擊;需要對梯度加密,雖然增加了安全性,但是也極大損失了算法的效率;傳統聯邦學習基於同步更新,浪費了大量的計算資源。如何設計既能保證安全性又具有高效率的聯邦學習算法以滿足產業AI應用需求,是業界面臨的突出難題。

為解決這一問題,京東數科正式推出了自研的Fedlearn平臺,該平臺具有三大特點。

第一,在數據和模型隱私方面,不同參與方之間沒有直接交換本地數據和模型參數,而是交換更新參數所需的中間數值。

第二,為了避免從這些中間數值中恢復數據信息,採用增加擾動對這些數值進行保護,確保了數據和模型的隱私安全。

第三,在通訊方面,引入中心化數據交換的概念,使得數據的交換獨立於參與方。最後,採用異步計算框架,極大地提高了模型訓練的速度。

融合了密碼學、機器學習、區塊鏈等聯邦學習算法的Fedlearn平臺,搭建出一套安全、智能、高效的鏈接平臺,在各機構數據不用向外傳輸的前提下,通過聯合多方機構數據,實現共同構建模型等多方數據聯合使用場景,獲得加成效應。相較於傳統的數據共享交換方法,Fedlearn平臺創新性地提出了並行加密算法、異步計算框架、創新聯邦學習等技術架構,在保證數據安全的前提下提升學習效率,並逐步達到融合億級規模數據的能力。

在京東數科開發Fedlearn平臺的過程中,也實現了多項業界首創技術,譬如近期實現的"基於核的非線性聯邦學習算法"。在安全性上,這一方法不傳輸原始樣本及梯度信息,充分保護數據隱私;在快速性方面,這一方法使用首創的雙隨機梯度下降,大大提高計算速度,充分利用計算資源,通過增加擾動提高數據的安全保護。這一技術創新已經形成了論文《解決多方垂直聯邦學習的安全核學習算法》(Federated Doubly Stochastic Kernel Learning for Vertically Partitioned Data),並被頂級學術會議KDD 2020接受。

Fedlearn平臺以多自研聯邦學習算法、多方同態加密、輕量級分佈式架構、區塊鏈與聯邦學習融合、數據安全容器、一站式操作平臺"六位一體"核心能力,長效保持自身行業競爭力,其背後的項目團隊成員更是90%以上都擁有算法、密碼學或機器學習方向的博士、碩士學歷,用京東數科AI實驗室首席科學家薄列峰的話說,就是"我們在用'最強大腦'駕馭和梳理聯邦學習"。


與傳統聯合建模有何優勢?

"聯邦學習並不會損害模型效果,反而能夠提高業務模型效果",京東數科風險管理中心智能模型部負責人彭南博表示,"在京東數科風控'聯邦模盒'產品業務實踐中,著實取得較於傳統聯合建模更優的效果"。

究其原因,一方面,聯邦學習理論上是能夠獲得最優解的,即通過梯度下降迭代過程,可以實現聯邦間的特徵組合和交叉建模,從而解決如"異或"這樣的非線性問題;

另一方面,由於能夠保護數據隱私安全,因此無需限制建模樣本的數量,使聯邦學習可以使用更多數據建模,基於大數據更有效發現數據規律,進而提升模型效果。

另外在風控建模合作中,業務方通常還會要求模型具備較高的可解釋性,也就是說,模型自己能夠解釋預測的結果、為什麼會做出這樣的預測。例如,在信貸風控中,根據多頭借貸風險常識,借貸申請數量越多風險越大,若在模型中表現相反,有極大可能性是數據問題導致模型發生錯誤,此時部署上線將造成金融業務的壞賬損失。然而聯邦學習的主張是保護用戶隱私,使得傳統聯邦模型很難進行細節解釋,當前風控最常用的聯邦XGB算法,因其分裂方向暗含了特徵取值區間,需要隱藏特徵含義才能保護數據,所以聯邦模型的不可解釋性成為聯邦學習面向風控應用的又一大難題,目前市場上的聯邦學習產品訓練出的模型往往不可解釋。

在風險管理創新性應用領域上,京東數科提出行業內首個實現聯邦樹模型可解釋性方法,並融入到"聯邦模盒"產品中,該產品已包含了多種原創的路徑加密算法,實現即使公開特徵含義也不會洩露用戶隱私,該算法在準確性、複雜度方面與原方案保持一致,同時具有更好的可解釋性。

目前京東數科金條、白條業務模型已經全面實現了傳統建模向聯邦建模的升級,聯邦模式下模型的風險識別能力和流量轉化率均得到了提升。除了在風控方面的應用,AI+智能城市領域,京東數科自研的聯邦學習平臺——Fedlearn平臺也有廣泛應用。如"智能城市操作系統"作為政府數字化服務的"底座",其包含時空數據引擎、時空智能引擎、基於聯邦學習的數字網關技術以及京東城市莫奈可視化平臺等諸多前沿科技。像時空數據引擎歸類城市中的萬千數據,解決數據標準化的問題,處理速度比傳統數據平臺快10—100倍;時空智能引擎將算法進行模塊化、積木式輸出,解決不同場景下智能應用的開發問題,極大降低開發成本;再如基於聯邦學習的數字網關技術,通過用戶隱私保護的聯合建模機制和多源數據融合算法,有效助力解決平臺隱私保護問題。

除此之外,京東數科依託在金融服務、數字營銷等領域積累的豐富實踐經驗,形成了多場景的解決方案,通過聯邦學習可以實現多場景的解決方案升級,結合各個客戶的自身情況,提供定製化程度更高的服務。目前,已實現多個不同類型的合作項目落地。

從底層代碼到算法再到平臺搭建,京東數科始終堅持自主研究創新,一路穩紮穩打。"我們希望依託數科強大的AI技術背景,通過Fedlearn平臺的科技能力輸出助力用戶和產業實現'聯結',為各種規模企業實現賦能和增長,這也是我們作為聯邦學習應用落地領軍者的使命",薄列峰表示。


分享到:


相關文章: