深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能


深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能


深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

打破數據困境的思路,正如蜜蜂採蜜歸巢。

近期,平安科技副總工程師、聯邦學習技術部總經理、資深人工智能總監王健宗博士做客雷鋒網AI金融評論公開課,以“聯邦智能加速AI落地”為題,全面詳盡地講解了聯邦智能如何直面數據困境,解決AI落地難題。

我今天的演講主要分為四個部分。

首先我會解釋一下,過去這些年我在人工智能行業中遇到的一些數據困境,也是實際上人工智能普遍會遇到的一些問題。

第二,我將自己這些年的思考提煉成聯邦智能這樣一個理念,希望藉由這個理念來重塑數據生態。

第三,將給大家彙報一下,我們這些年在聯邦智能方面的一些應用和實踐工作。

最後,我會簡短地展望一下未來聯邦智能的未來發展。

人工智能中的數據困境

距離我第一次聽到大數據已經將近10年時間。大數據發展到今天,實際上是因為有移動互聯網,包括雲計算的驅動,推動數據海量發展,也推動了我們目前以深度學習技術為核心的這一波人工智能的浪潮。

從2019年開始,我們常常會遇到一些人工智能難以落地的難題,或者在應用上沒有普適性,或者產品在通用性不夠等問題,這些問題是伴隨著這一波AI技術的革命、革新逐步暴露出來的。

數據作為核心的資產,無法共享時,會形成一個個數據孤島,阻礙AI落地。各行各業實際上都存在數據壁壘,如何來突破這一塊,讓AI生態能夠更好的發展,是現在所有的AI人想解決的問題。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

對於數據來說,第一個問題是數據孤島,第二個問題是對於數據的隱私保護。全球都在對數據使用做出各種各樣的限制,對於一些隱私數據的使用規範,已經有了很明確的法律層面的界定。實際上這也是數據資產化的一種趨勢。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

我們國家一直以來都非常重視數據安全、網絡安全。近年來相繼出臺了《網絡安全法》等各種各樣的信息保護法,我所從事的金融行業,像金融標準委員會等,也對數據有相關規定。

未來的趨勢是,法律會越來越嚴。趨嚴之後,大家對數據的使用也會越來越規範。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

我從事的金融行業,在做AI模型的過程中,有很多數據合作的需求。因為,模型本身從冷啟動開始的時候就需要一些數據,對於這些數據需要關心它的來源是什麼?它的安全性是什麼?它是否能夠讓我能夠合法合規地使用?

如果數據不安全、不合規,我相信沒人公司願意在這樣的大環境下鋌而走險去使用。

在目前法律趨嚴的情況下,大家對數據使用方面也是需要特別地小心。去年,國家層面對爬蟲進行過一波整治。實際上,爬蟲存在很明顯地在沒有經過用戶允許的情況下濫用數據的行為,這是國家嚴令禁止的。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

2020年4月9日,國務院在構建要素市場化配置機制的意見當中,首次把數據和土地、勞動力、資本、技術等作為要素,明確提出來,就加強數據整合、安全保護,制定出這樣一個數據隱私的制度。

我覺得培養對數據隱私保護,及合法合規使用數據的意識,是非常重要的,希望大家能夠重視起來。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

接下來,我會從傳統AI技術模式出發分析一些瓶頸或者限制出現的原因。

實際上,傳統的AI技術必須從海量的數據中學習或者挖掘一些相關的特徵,利用數學理論,去擬合一個數學模型,找到輸入和輸出的對應關係,比如深度學習中訓練網絡的權重和偏置,模型效果與數據量級、質量、以及數據的真實性等有著密切的關係。

  • 對企業的限制

科技頭部公司有著成熟的技術和產品,數據渠道和來源較為廣泛。

而對小型或初創公司來說,與數據信息具有強依賴關係的技術模式,使其不能突破數據瓶頸,無法實現商業化落地。另外,傳統的數據合作方式,仍存在週期冗長、流程繁瑣等問題。

  • 對個人的限制

這一技術模式使個人幾乎無法參與到AI產品的迭代中,用戶不能從他們的設備、位置等方面收集個人數據來完成功能優化。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

怎樣打破數據的困境?如何在保護隱私的情況下,讓個人端和商業端共贏,實現全行業共同的增益?

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

我嘗試給出一個答案——聯邦智能,這是我經過長時間思考和多次改版提出來的理念體系。

聯邦智能以聯邦學習為龍頭、為核心,依據聯邦數據部落,依託隱私的聯邦推理,以聯邦激勵機制為紐帶所形成的一整個AI新生態或者新常態。

解決之道:聯邦智能重塑數據生態

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

這裡展示的是聯邦智能的架構關係圖,其構成部分包括:聯邦學習、聯邦推理、聯邦數據部落,以及貫穿於整個框架體系中的聯邦激勵機制。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

首先,我將對聯邦數據部落做下簡要介紹。在大數據時代,業界存在諸多與數據存儲相關的表現形式,如:數據庫、數據雲等等。

那麼我們在這裡為什麼會提出數據部落?實際上,每個數據可以定義為單位個體,它們之間相互獨立,但又信息相通,具有合作的關聯屬性,因此我們將這些數據單元的集合,稱之為數據部落。

在部落中,既有來自各行各業的數據,又有來自各種端部的數據。

我們的初衷,是希望部落之間能夠達成數據不出本地的一種合作機制。大家能夠把自己的數據貢獻出來,共同去完成建模過程。

在這一過程中,大致會包含數據過濾、數據對齊,以及一些特徵信息的聚合等內容。在聯邦學習這一聯合建模的過程中,機器學習、深度學習均有參與,不過就目前來講,還仍未出現一個“All in One”的解決方案。

我們聯邦數據部落中的數據信息,通過聯邦學習,最終會形成聯邦模型,而這一模型會反哺各行各業,包括:智慧金融、智慧城市、智慧醫療等各種場景。

實際上,我們的聯邦模型還能提供聯邦推理這一服務應用。其中,聯邦推理是基於加密方式完成推理計算的,這一過程無需上傳任何相關設備存儲的明文數據,或者是個人隱私數據,從而保證了數據的安全和隱私性。

整個系統會融入有聯邦激勵機制。我們設計激勵機制的初衷,是希望這一機制能夠保證各聯合方既能作為貢獻者,又能成為受益人,以此激勵在這一生態中的合夥人可以做好促進聯邦智能生態往繁榮方向發展。

關於聯邦激勵機制的相關工作,我們將在後面展開介紹。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

實際上,聯邦學習是一種加密的分佈式機器學習技術。傳統的分佈式機器學習技術在數據分佈上是一致的,但在聯邦學習中所表現的是數據獨立且分佈不同。

在聯邦學習過程中,會考慮很多的底層技術,如多顯卡加速計算的線程分配、參數交換機制等,這裡面我們就需要著重考慮基於加密方式的隱私保護問題。

如上圖“聯邦學習系統”所示,它本質上是基於本地數據的本地訓練,雲端會發布相應的初始模型,並聯合各方由本地發起訓練,共同完成模型構建過程。

聯邦學習機制是允許跨行業的,同時可以跨B端和C端。

目前來看,國內B端市場對聯邦學習表現有非常強烈的需求意向,特別像金融行業,由於國家對金融數據有著嚴格管控,使得聯邦學習在智能金融場景的應用會比其他行業更為前沿。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

聯邦學習的優勢主要包括以下四點:

1、數據本地化使得數據本身不會洩露到外部,能夠完全滿足用戶隱私保護的需求。

2、從算力上我們可以做好邊端的計算下沉。特別在5g時代來臨後,限制參數交換速度的網絡瓶頸會被逐步打破,從而更好地加速聯合訓練。

3、在聯合建模過程當中,可以實時進行基於加密機制下的參數交換,實現原始數據不洩露,這種無數據直接交互和傳輸方式也符合政策與法律法規要求。

4、我們可以確保參與各方的身份和地位是相同的。通過設計的激勵機制,使得大家有益於參與聯合訓練過程,從而更好地維護聯邦智能生態。另外,聯邦學習將更有利於數據相對弱勢的一方,並最終實現共同增益。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

我們提到的聯邦數據部落,是要把每一個數據孤島部落化,以此納入聯邦合作的體系中來。

對於整個數據部落來說,例如IOT數據、醫療數據、個人手機數據以及各個行業數據,這些原始數據實際上是互不相通的,沒有任何數據流轉通道。

其中,我們會對各方間的數據獲取渠道進行加鎖設置。當數據合作方加入到部落中後,實際上存在一些工作,具體表現為如下三點:

1、首先我會提供一些相關的標準化工具,在原始不交換的基礎上,對來自個人或企業終端的本地數據進行預處理,比如針對缺失數據、重複數據、偏離數據的數據清洗、數據降噪、數據降噪等工作。

實際上,我們的目標是在大家達成協議的基礎上,能夠選擇聯合終端中高質量的數據進行去中心化的本地訓練。

2、為了使用與某項業務場景相關的數據,我們需要做出

特徵標記與篩選

因此,“聯邦數據部落”會對訓練數據進行特徵化處理,包括:數據分類、特徵標記、數據聚合等方式,使其有針對性的發起訓練。

3、我們會對聯邦數據部落中的數據進行質量評估,這也是形成聯邦激勵機制評價指標的重要步驟。

聯邦數據部落依據數據量級、數據有效性、數據信息密度、數據真實性等評價指標,對參與聯邦學習訓練的數據進行質量評估。同時也起到了數據監測與評估量化的作用。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

在聯邦推理中,我們希望模型在應用環節也能起到保護數據隱私的作用。

以聲紋識別為例,它屬於生物特徵的一種,並在一定程度上是極其重要的隱私信息。在我從事多年的聲紋項目中發現,聲紋特徵是具有抗時變性的,短期內它不會隨著年齡的增長而發改變。

在傳統的聲紋推理模式中,服務會將用戶端輸入的語音直接傳送至雲端的聲紋平臺與引擎中,經過前置的語音預處理,如靜音消除、截幅檢測等。

由i-Vector/d-Vector/x-Vector聲紋模型提取出高維的特徵向量,再根據PLDA打分與兩兩比對,最終完成說話人身份確認。

比較典型的應用包括:聲紋門禁、聲紋鎖、電話平臺聲紋核身。另外,還包括1:N情況下的聲紋識別,即說話人辨別,以上是以聲紋為例的傳統推理過程。

如果我們不上傳本地語音數據將如何實現這一推理過程?

實際上,我們會在本地用戶端內置一個自主開發的蜂巢系統中的插件,它會在保留原始聲紋信息

的基礎上,利用混沌算法對語音信號進行加密,並形成如白噪聲類似的密文流信號。在經過一系列處理後,插件會生成公鑰,並連同處理語音一同傳送至雲端。

這個公鑰的作用是什麼?是為了確保在雲端推理過程中數據始終保持隱私性。最後,我們會將推理加密結果返回至邊端後,由邊端解密後直接獲取到真實結果。

整個推理過程,是一個隱私與安全的鏈路過程,我們的原始語音與信息始終沒有洩露。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

聯邦激勵機制是一個綜合性的閉環學習機制,實際上我們也融入宏觀經濟、管理範疇的一些概念。在我們的聯邦智能生態中,它所表徵的是對貢獻度與收益的評估機制。

在數據資產化的背景下,聯邦企業所貢獻的數據量級如果足夠大,且質量好,會直接為聯合模型帶來效果增益,而這一效果提升也會映射到參與聯邦的本地模型上,併為企業帶來實際的價值與收益。我們會以此量化這一過程中涉及的貢獻度。

同時我們發現,在這一良性激勵的帶動下會吸引更多的人來更新生態,最終形成貢獻與收益的動態平衡,這也是聯邦激勵機制的整個閉環過程。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

在聯邦激勵機制下,支付對象包括聯邦數據部落與聯邦結算中心。在聯邦數據部落中,一部分成員即是數據貢獻者,也有應用需求,可以說既是生產者,也是消費者。

而另一部分成員,只會提供數據支持,如大數據公司。在聯邦結算中心中,流向它的我們稱為用戶支付。

這一支付評估額維度是依據聯邦部落數據的本身價值,包括現有貢獻價值和未來價值,以及聯邦啟動的初始資金和聯邦後的實際效益,同時其中也會包含一些梯度定價策略。

另一方面,從聯邦結算中心流出的是激勵支付,它會依據各聯邦成員的數據量級、數據質量以及數據成本進行激勵性結算支付。

在這一閉環的流轉下,我們將希望吸引更多的人參與到聯邦激勵中,同時大家也可以從中獲得收益。

聯邦智能的應用實踐

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

我在平安打造了一個蜂巢平臺,顧名思義,很多蜜蜂通過外出採蜜,在蜂巢形成蜜的共享。打破數據孤島,挖掘數據價值,這個在金融行業是非常重要的。

我2015年回國加入平安之後,就做大數據和AI的工作,從開始就深刻感受到金融的行業對於數據的使用合規的一些監管方面的高壓。

因為本身金融數據很純淨,在座任何人都會有一些收入數據、股票交易數據等,對於任何人來說,這些數據都是絕密的,非常重要的。

國家以前是一行三會,現在是一行兩會,因為銀保監會合並了。銀保集團合併之後,數據的管理實際上是更加的嚴格。

在企業裡面,不管是什麼企業,只要數據沒辦法集中,工作就很難開展。

我們在平臺的設計上是遵循金融的標準,同時也支持國密。

如圖所示,整個過程裡面實現智能的聯邦的協作,實現數據的安全得理,實現多方的隱私訓練,能夠實現可信的機器學習,並且也有可視化一些服務。整個過程中,數據不會上傳到服務器,保證數據的安全性。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

整個平臺裡面,因為本身平安集團現在也是一個綜合性的集團,蜂巢能夠提供智慧金融、智慧城市、智慧醫療商用級的一站式解決方案,希望能夠激活數據價值。這是我們整個平臺的使命。

我們的目標是跨企業、跨數據、跨境領域,實現整個大數據AI生態。平臺的核心就是構建圍繞聯邦學習、聯邦數據部落、聯邦推理、聯邦激勵機制為核心的聯邦智能生態。

產品適用範圍包括像訓練隱私、敏感數據,同時借鑑了我們之前在自動化機器學習上的一些經驗,在底層進行加速,包括在底層通訊層的優化等等,也包括現在我們在加解密這一塊的嘗試,希望這個平臺能同時滿足B端和C端的需求。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

蜂巢平臺的技術框架,是支持聯邦智能原生的。如圖所示,底層的數據部分我不再贅述了,在整個系統裡面我們都把它看成數據部落。

在數據部落裡面,有幾個功能模塊,包括數據預處理、數據特徵化、數據質量的評估、這些我們在技術上都會做一些實現。

平臺支持傳統的統計學習以及深度學習的模型,比如邏輯迴歸、線性迴歸、樹模型等。在整個模型訓練過程中,對梯度進行非對稱加密,整合梯度和參數優化、更新模型。

在推理這一塊,我們會把原始的傳輸的數據進行加密,最終實現推理結果。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

我們的產品定位是服務於營銷、獲客、定價、風控、智慧城市和智慧醫療。同時,整個團隊在聯邦學習技術上也有一定的科研成果,包括專利和論文。

  • 智慧金融

舉個例子,銀保監會和證監會數據是絕對不能打通的。所以說對傳統的數據,如圖左邊所示,比方說出本地聯合建模,這種方式可以在實驗環境做一做,但在真實數據上,這種方法行不通,因為政策法規是不允許的。

我們用聯邦學習建模方式做了對比實驗,發現聯邦學習可以提升模型效果。金融領域,大部分的場景是縱向聯邦學習,橫向市場主要在移動端。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能
  • 智慧醫療


深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

我們還有包括醫療的影像數據這一塊的實踐經驗。

過去,我做醫療影像建模是非常困難的,我們訓練好一個模型之後,要把模型布到物理機上,並搬到我們在貴州一個醫院去。

這個過程非常辛苦,並且這個模型還不能輕易更新,除非通過“人肉”的方式,拿著硬盤去更新。因為醫療服務器不能聯網,病人的片子是非常隱私的。

有了聯邦學習之後,通過聯邦學習的方式,比方說像新冠肺炎這樣的一些讀片數據,在不出本地的情況下,也能實現一整個的新冠肺炎檢測模型的優化。

也可以把新冠肺炎的模型分享給別人,現在國際疫情形勢下,我們可以給到國外。這些都是可以用聯邦學習做的一些工作。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

實際上我們在聯邦推理和怎麼樣保證大家實現一個安全或者可信的環境也可以做很多工作。我很高興地看到,現在聯邦學習每天都在推陳出新,相關的合作和應用越來越多,這也是我們所有聯邦學習的從業者非常樂意看到的一個局面。

聯邦智能未來還有很多路要走


深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能


目前,聯邦智能的關注度很高,其內部的需求是非常旺盛的。我們也希望大家無論是在訓練、推理、還是數據部落的構建、使用方面都能有聯邦智能的理念和意識。在金融領域、智能家居、車聯網等拓展領域上都能看到一些公司在佈局聯邦智能。

同時,聯邦學習標準也在逐步落地。我們希望大家能夠共同打造聯邦學習的生態,使各行各業能充分發揮其價值,使更多的垂直行業能夠落地。

互動問答精選

Q1:聯邦數據部落和聯合建模有什麼區別?

王健宗:它們屬於聯邦學習不同的層面。聯邦數據部落,實際上是聯合建模之前的數據準備、數據評估等工作。做好數據準備後才會考慮聯合建模。聯合建模是聯邦學習中的重要部分。

這裡我再補充講一下聯邦推理,它是在已有模型的基礎上實現的。在數據隱私安全的背景下,聯邦推理的趨勢是非常明顯的,聯邦推理的初衷是希望保證隱私數據不洩露。在未來,將會有更多的AI模型引入聯邦學習,使得模型更加可靠和安全。

Q2:聯邦推理和傳統推理只是有加、解密的區別嗎?

王健宗:我覺得不僅僅是加解密的區別。首先,如果對於推理結果只是加解密的話,不需要做任何信息片段的處理,只需要上傳推理結果和公鑰,最終返回私鑰。

但是聯邦推理不是這樣,比如在語音應用的場景下,聯邦推理會對語音做一些處理工作,如截幅、降噪、加白噪音,甚至混淆等等。這些不僅是加解密,而是做到數據的混沌,把數據混沌化,以保證上傳的數據不被破解。這也是聯邦推理和傳統推理的本質區別。

Q3:數據平臺很多,聯邦主要是聚焦在哪些方面?

王健宗:我們聯邦的整個平臺,包括蜂巢平臺是兼容目前很多數據平臺的。我們現在是支持Spark和Hadoop的,並且也支持一些傳統的非結構化數據。

實際上,大家可以將我們理解為數據平臺的增強版本,我們能夠兼容傳統的數據平臺,並且通過一些構建後,底層架構能夠兼容各種結構化、非結構化的數據。為了做好聯邦學習,我們已經做了一些處理和改進。

Q4:從論文到商業落地中間差了多長時間?有哪些工程的事情要做?

王健宗:雖然好論文應該是來自實際問題,是對實際存在問題的解答,但也會有很多好的論文涉及理論上的創新。從理論到商業落地的週期可能長則數年,短則一到兩年。

在我現在做的蜂巢平臺裡面,我發現一個很實際的問題:傳輸過程非常慢,因為傳輸涉及到加密解密過程。這個時候我們就可以做一些實際工作。

比如:首先可以在通訊的時候,在網絡編碼層中加入一些AI訓練過程的加速方法,其次是探索加解密方面是不是有更好的一些算法等。

Q5:蜂巢平臺的相關資料很少,如何能夠了解與學習?

王健宗:蜂巢平臺在設計的時候,我希望它可以作為一個成熟的產品面世。在整個平安這一綜合金融體系下,關於蜂巢平臺要做的工作是非常多的,如先前列舉的銀行、證券的案例。

實際上,關於互聯網數據也有諸多工作要做,包括來自平安在做智慧城市、智慧醫療方面的數據,是有很多的開發空間。蜂巢平臺天然具備聯邦智能的架構,並逐步面向市場提供服務。

在後續的工作中,如果我們內部做到足夠好,將會進行開源,我覺得這也是未來蜂巢平臺的一個發展趨勢。相關資料我在很多公開場合都有講到,大家如果有興趣,可以共同來探討、優化蜂巢平臺。

Q6:企業場景除金融行業之外,是否還有其他典型案例?聯邦學習計算資源如何計費?

王健宗:在過去幾年,我一直在做聯邦學習,並認知到,只要你有數據,就會存在可以應用的場景。

最近,我們在探討一些智慧城市的應用。同時發現,在社會治理結構方面存在參差不齊的現象。諸如政府社保、企業投資風控等,都是需要專業的應用模型。

我們在制定解決過程中,很多數據包括政府裡面的財務數據都是不互通的,所以我們的平臺可能會有應用機會。

關於如何計費,我們在聯邦激勵中設計有支付機制,另外就是基於企業AI本身的分配模式。

Q7:蜂巢平臺對標的競品是什麼?

王健宗:平安的聯邦學習平臺起步較早,在初期還沒有相關的可以對標的競品,在產品設計初期我以加速AI落地為目標,期望打造一個能夠完全自主可控、自主研發的企業級聯邦智能平臺,賦能人工智能各領域。

經過長時間的沉澱,目前是個天然自適應於聯邦智能生態的AI平臺產品,它不僅僅具備聯邦學習的能力,還引入AutoML理念,彙集了流程自動化、自動數據增強、分佈式加速、自動模型壓縮、自動調參、自動搭建網絡等自動化機器學習尖端技術。

同時,蜂巢的設計嚴格參照國家金融標準委員會、國家保密標準等國內外相關標準和規範,確保蜂巢能夠具備普適性、通用性和魯棒性。

深度丨平安科技副總工王健宗:安防與醫療,離不開聯邦智能

《AI金融評論》公開課視頻回放

閱讀長圖底部文字,掃碼進群收看400分鐘的視頻回放



分享到:


相關文章: