AI醫療、安防的最大變量:聯邦學習誕生1000天的真實現狀


AI醫療、安防的最大變量:聯邦學習誕生1000天的真實現狀

從“自給自足”的To C模式,到企業之間互聯互通的To B模式,再到金融、醫療、安防全場景應用的過程。

聯邦學習,無疑是當前最受工業界和學術界關注的人工智能研究方向之一。

近兩年,在楊強教授等世界級專家的聯合推動下,國內外多數科技巨頭,均已開始搭建聯邦學習的研究與應用團隊。

基於此,雷鋒網《AI金融評論》與《AI科技評論》聯合邀請五位頂尖聯邦學習專家,啟動《金融聯邦學習公開課》。其中在昨日的首節公開課上,微眾銀行首席AI官楊強教授分享了聯邦學習前沿與應用價值討論。(課程全文與視頻回顧,將在公眾號AI金融評論發佈)

今天,我們先來完整回顧下聯邦學習誕生三年來,從“自給自足”的To C模式,到企業之間互聯互通的To B模式,再到醫療、安防、金融等全場景應用的過程。

聯邦學習的誕生:一個有趣的To C設想

聯邦學習的概念,首次提出是在2017年的一篇Google AI Blog博文。

文章作者之一是Blaise Aguëray Arcas,他2014年加入谷歌,此前在微軟任傑出工程師。加入谷歌後,Blaise領導了谷歌設備端on-device機器智能(Machine Intelligence)項目,同時負責基礎研究與新產品研發工作。

在他加入谷歌後不久,便開始了聯邦學習的研究。直到2017年,當他們取得了一定的成果,才在博文中進行公佈。

設備上的聯邦學習

Blaise 等人(或許也在某種程度上代表谷歌)所關注的,更多是設備上的聯邦學習——這也正是聯邦學習概念被提出之初的應用場景。

由於神經網絡仍然受到學習效率的限制,它需要大量的數據進行訓練,所以一些大公司,如谷歌、微軟、亞馬遜等開始提供人工智能服務時需要收集大量的數據,才能去訓練大型神經網絡。這也是一直以來,整個社區所做的事情。

對於設備端(例如手機)的智能應用,通常情況下的模式是,用戶在設備上產生的數據會被上傳到服務器中,然後由部署在服務器上的神經網絡模型根據收集到的大量數據進行訓練得到一個模型,服務商根據這個模型來為用戶提供服務。隨著用戶設備端數據的不斷更新並上傳到服務器,服務器將根據這些更新數據來更新模型。很明顯這是一種集中式的模型訓練方法。

然而這種方式存在幾個問題:

1)無法保證用戶的數據隱私,用戶使用設備過程中產生的所有數據都將被服務商所收集;

2)難以克服網絡延遲所造成的卡頓,這在需要實時性的服務(例如輸入法)中尤其明顯。

Blaise等人便想,是否可以通過做一個大型的分佈式的神經網絡模型訓練框架,讓用戶數據不出本地(在自己的設備中進行訓練)的同時也能獲得相同的服務體驗。

解決之道便是:上傳權重,而非數據

我們知道神經網絡模型是由不同層的神經元之間連接構成的,層與層之間的連接則是通過權重實現的,這些權重決定了神經網絡能夠做什麼:一些權重是用來區分貓和狗的;另一組則可以區分桌子和椅子。從視覺識別到音頻處理都是由權重來決定的。神經網絡模型的訓練本質上就是在訓練這些權重。

那麼Blaise提出的設備端聯邦學習,不再是讓用戶把數據發送到服務器,然後在服務器上進行模型訓練,而是用戶本地訓練,加密上傳訓練模型(權重),服務器端會綜合成千上萬的用戶模型後再反饋給用戶模型改進方案。

AI醫療、安防的最大變量:聯邦學習誕生1000天的真實現狀

這裡或許值得強調,這種在設備端上的模型是經壓縮過的,而非像服務器中那種大型神經網絡模型。因此模型訓練的耗能是非常小的,幾乎檢測不到。

此外,Blaise講了一個非常形象的比喻,即人會在睡覺的時候通過做夢來更新自己的大腦認知系統;同樣設備終端的系統也可以通過閒置時進行模型訓練和更新。所以整體上,這並不會對用戶的使用體驗造成任何影響。

總結一下設備上聯邦學習的過程:

  1. 設備端下載當前版本的模型;
  2. 通過學習本地數據來改進模型;
  3. 把對模型的改進,概括成一個比較小的更新;
  4. 該更新被加密發送到雲端;
  5. 與其他用戶的更新即時整合,作為對共享模型的改進。

整個過程有三個關鍵環節:

  1. 根據用戶使用情況,每臺手機在本地對模型進行個性化改進;
  2. 形成一個整體的模型修改方案;
  3. 應用於共享的模型。該過程會不斷循環。

其優點顯而易見:

首先,數據可以不上傳雲端,服務提供商看不到用戶數據,這能提高用戶數據隱私性。因此也就不必在隱私和功能之間權衡,可以兩者兼有。這一點在當下數據隱私越來越受到重視的情況下特別重要。

其次,延時降低。如果將用戶所有數據都上傳到雲端,且服務本身也是從雲端進行反饋,那麼在網速較慢的環境下,網絡延時將會極大降低用戶體驗。而聯邦學習加持下的服務則不會出現這種情況,因為服務本身就來自於本地。

同時,聯邦學習的出現,也使得用戶從人工智能的旁觀者,真正轉變為人工智能發展的參與者。To B人工智能的困局:

隱私保護、小數據、數據孤島

其實Google的聯邦學習,並沒有解決企業之間數據孤島問題。

Google的方案可以理解為To C的,應用在用戶的手機端,是同一家公司根據內部對To C業務的需求所產生的一套用以解決數據隱私問題的方案。

而楊強教授牽頭建設的聯邦學習生態更多是To B模式,用以解決企業與企業之間的數據孤島難題,是一個更開放的類似企業聯盟的生態。

總體而言,Google的聯邦學習方案是橫向的,它使用的數據特徵相同,因此只需要建同一個模型。

而新方案則是縱向聯邦學習,不同企業之間的數據特徵往往不同,所以即便面向的用戶是相同的場景,整個技術方案和實施框架也不一樣。

楊強教授曾在雷鋒網承辦的CCF-GAIR 2019「AI 金融專場」的大會報告中指出,利益驅使下,各家公司們過去並不願意把數據拿出來和其他公司交換。除了少數幾家擁有海量用戶、具備產品和服務優勢的「巨無霸」公司外,大多數企業難以以一種合理合法的方式跨越人工智能落地的數據鴻溝,或者對於他們來說需要付出巨大的成本來解決這一問題。

此外,監管當局已經採取頗為嚴格的隱私保護措施。

去年5月份歐洲首先提出數據隱私保護法GDPR,對人工智能機器的使用、數據的使用和數據確權,都提出非常嚴格的要求,以至於Google被多次罰款,每次金額都在幾千萬歐元左右。

因為GDPR其中一則條文就是數據使用不能偏離用戶籤的協議,也許用戶的大數據分析,可以用作提高產品使用體驗,但是如果公司拿這些數據訓練對話系統,就違反了協議。如果公司要拿這些數據做另外的事,甚至拿這些數據和別人交換,前提必須是一定要獲得用戶的同意。

另外還有一些嚴格的要求,包括可遺忘權,就是說用戶有一天不希望自己的數據用在你的模型裡了,那他就有權告訴公司,公司有責任把該用戶的數據從模型裡拿出來。這種要求不僅在歐洲,在美國加州也實行了非常嚴格的類似的數據保護法。

中國對數據隱私和保護也進行了非常細緻的研究,從2009年到2019年有一系列動作,而且越來越嚴格,經過長期的討論和民眾的交互,可能近期會有一系列正式的法律出臺。

其次,我們的數據大部分是小數據:沒有好的模型就無法做到好的自動化,好的模型往往需要好的大數據,但往往高質量、有標籤的數據都是小數據。

而且數據都在變化,每個階段的數據和上一個階段的數據有不同的分佈,也許特徵也會有不同。實時標註這些數據想形成好的訓練數據又需要花費很多人力。

當前,大多數應用領域均存在數據有限且質量較差的問題,在某些專業性很強的細分領域(如醫療診斷)更是難以獲得足以支撐人工智能技術實現的標註數據。

三是“對抗學習”的挑戰。即針對人工智能應用的作假,比如人臉識別就可以做假,針對面部進行合成。如何應對這種“對抗學習”的挑戰,這是金融場景下人工智能安全領域的重大題目。

不僅金融場景,在法律場景也是這樣,醫療場景更是如此。每個醫院的數據集都是有限的,如果不能把這些數據打通,每個數據集就只能做簡單的模型,也不能達到人類醫生所要求的高質量的疾病識別。

在這樣的困境中,不少人覺得人工智能的冬天也許又一次到來了——但在聯邦學習研究者看來,這正是一次技術躍遷的良機。

聯邦學習:橫向、縱向、遷移

楊強這樣形容聯邦學習的精髓:

我們每個人的大腦裡都有數據,當兩個人在一起做作業或者一起寫書的時候,我們並沒有把兩個腦袋物理性合在一起,而是兩個人用語言交流。所以我們寫書的時候,一個人寫一部分,通過語言的交流最後把合作的文章或者書寫出來。

我們交流的是參數,在交流參數的過程中有沒有辦法保護我們大腦裡的隱私呢?是有辦法的,這個辦法是讓不同的機構互相之間傳遞加密後的參數,以建立共享的模型,數據可以不出本地。

從簡單定義來講,聯邦學習是在本地把本地數據建一個模型,再把這個模型的關鍵參數加密,這種數據加密傳到雲端也沒有辦法解密,因為他得到的是一個加密數據包,雲端把幾千萬的包用一個算法加以聚合,來更新現有的模型,然後再把更新後的模型下傳。重要的是,整個過程中Server雲端不知道每個包裡裝的內容。

之前這種做法比較困難,但同態加密的出現讓運算效率取得了重大提升,即加密算法可以隔著加密層去進行運算。不過需要注意的是這只是2C的例子,是雲端面對大用戶群的例子。

AI醫療、安防的最大變量:聯邦學習誕生1000天的真實現狀

它可以把多項式的加密,分解成每項加密的多項式,A+B的加密,變成A的加密加B的加密,這是非常偉大的貢獻。因為這樣就使得我們可以拿一個算法,在外面把算法給全部加密,加密的一層可以滲透到裡面的每個單元。能做到這一點就能改變現有的機器學習的教科書,把任何算法變成加密的算法。

對於橫向、縱向和遷移聯邦學習,楊強給出瞭如下解釋:

橫向聯邦學習

橫向聯邦學習是每行過來都可以看作一個用戶的數據。按照用戶來分,可以看作一、二、三個手機,它叫橫向學習。還有一個原因是它們的縱向都是特徵,比如手機型號、手機使用時間、電池以及人的位置等,這些都是特徵。他們的特徵都是一樣的,樣本都是不一樣的,這是橫向聯邦學習。

AI醫療、安防的最大變量:聯邦學習誕生1000天的真實現狀

主要做法是首先把信用評級得到,然後在加密狀態下做聚合,這種聚合裡面不是簡單的加,而是很複雜的加,然後把徵信模型再分發下來。

縱向聯邦學習

大家的Feature不一樣,一個機構紅色、一個機構藍色,大家可以想象兩個醫院,一個病人在紅色醫院做一些檢測,在藍色的醫院做另外一些檢測,當我們知道這兩個醫院有同樣一群病人,他們不願意直接交換數據的情況下,有沒有辦法聯合建模?

它們中間有一個部門牆,我們可以在兩邊各自建一個深度學習模型,建模的時候關鍵的一步是梯度下降,梯度下降我們需要知道幾個參數,上一輪參數、Loss(gradients)來搭配下一個模型的weight參數。

AI醫療、安防的最大變量:聯邦學習誕生1000天的真實現狀

這個過程中我們需要得到全部模型的參數級,這時候需要進行交換,交換的時候可以通過同態加密的算法,也可以通過secure multiparty computation,這裡面有一系列的算法,兩邊交換加密參數,對方進行更新,再次交換參數,一直到系統覆蓋。

遷移聯邦學習

它們在特徵上一樣,或者在特徵上不一樣,但是他們的用戶有些是有交集的,當用戶和特徵沒有交集時,我們退一步想,我們可以把他們所在的空間進行降維或者升維,把他們帶到另外的空間去。

在另外的空間可以發現他們的子空間是有交互的,這些子空間的交互就可以進行遷移學習。雖然他們沒有直接的特徵和用戶的重合,我們還是可以找到共性進行遷移學習。

AI醫療、安防的最大變量:聯邦學習誕生1000天的真實現狀

總的來說,聯邦學習的這種思想,事實上並不僅僅適用於設備用戶數據的隱私保護和模型更新。

我們將設備用戶抽象來看,視作數據的擁有者,可以是手機持有者,也可以是公司、醫院、銀行等;而服務器或雲端視作模型共享綜合平臺。

作為一種新的學習範式,聯邦學習具有以下特點:

  • 在聯邦學習的框架下,各參與者地位對等,能夠實現公平合作;
  • 數據保留在本地,避免數據洩露,滿足用戶隱私保護和數據安全的需求;
  • 能夠保證參與各方在保持獨立性的情況下,進行信息與模型參數的加密交換,並同時獲得成長;
  • 建模效果與傳統深度學習算法建模效果相差不大;
  • 聯邦學習是一個「閉環」的學習機制,模型效果取決於數據提供方的貢獻。

這樣一個直接命中人工智能發展痛點的新技術,也開始進入到各大應用場景當中。

聯邦學習與醫療AI

作為醫療AI成長道路不可或缺的“糧食”,數據一直是醫療AI落地的“攔路虎”。

醫療健康數據領域長期存在“信息孤島”問題,不同地區甚至不同醫院間的醫療數據沒有互聯,也沒有統一的標準。與此同時,數據安全問題也存在著巨大挑戰。

就在昨日,騰訊天衍實驗室公開宣佈,其聯合微眾銀行研發的醫療聯邦學習,在腦卒中預測的應用上,準確率在相關數據集中高達80%。

AI醫療、安防的最大變量:聯邦學習誕生1000天的真實現狀

聯邦學習可以繞過醫療機構之間的信息壁壘,不考慮將各自數據做合併,而是通過協議在其間傳遞加密之後的信息,該加密過程具有一定的隱私保護機制,保證加密後的信息不會產生數據洩露。各個醫療機構通過使用這些加密的信息更新模型參數,從而實現在不暴露原始數據的條件下使用全部患者數據的訓練過程。

舉例來說,假設醫院 A 和 B 想聯合訓練一個腦卒中疾病預測模型,兩個醫院各自掌握科研病例數據,此外,醫院 B 還擁有模型需要預測的標籤數據如腦卒中發病標籤。出於數據隱私保護和安全考慮,醫院A和 B無法直接進行數據交換。聯邦學習系統則可以利用基於加密的患者樣本對齊技術,在醫院 A 和 B 不公開各自數據的前提下確認雙方的共有患者,並且不暴露不互相重疊的患者,以便聯合這些用戶的特徵進行建模,在確定共有用戶群體後,就可以利用這些數據訓練疾病預測模型。

在這樣的一種方式下,聯邦學習技術就實現了保護不同醫院數據隱私的疾病預測模型,而這項技術也在疾病預測領域落地,天衍實驗室和微眾銀行成功構建了一個“腦卒中發病風險預測模型”。

通過使用來自就診記錄數量TOP5的醫院真實就診數據驗證,聯邦學習模型和集中訓練模型表現幾乎一致,在腦卒中預測模型中的準確率達到80%,僅比集中訓練模型準確率降低1%。

同時,聯邦學習技術顯著提升了不同醫院的獨立模型效果,特別是,對於兩家腦卒中確診病例數量較少的醫院而言,聯邦學習分別提升其準確率10%和20%以上。

除疾病預測模型外,雙方還會圍繞聯邦學習在醫療大數據領域的應用落地進行更多維度的合作,包括醫保控費、合理診斷、精準醫療等領域,例如通過聯邦學習助力電子健康卡實現保護用戶隱私建模等等,進而促進醫療健康產業發展,提升醫療服務的質量。

而在2019年醫學影像分析頂會MICCAI中,聯邦學習在醫學影像上的應用正式進入研究者的視野。

英偉達與倫敦國王學院以及一家法國初創公司Owkin合作,在新成立的倫敦醫學影像與人工智能中心中應用了聯邦學習技術。

由於醫療數據的隱私規定,在集中數據湖中收集和共享患者數據通常是不可行的。這就給訓練機器學習算法帶來了挑戰,例如深度卷積網絡通常需要大量不同的訓練示例。

聯邦學習通過將代碼帶給患者數據所有者,並且只在他們之間共享中間模型訓練的信息,從而避開了這一困難。儘管適當地聚合這些模型可以獲得更高精度的模型,但共享的模型可能會間接洩漏本地訓練數據。

這項技術論文提出了一個用於腦腫瘤分割的聯邦學習系統,探討了在聯邦學習系統中應用微分隱私技術來保護病人數據的可行性。

此次試驗是基於取自BraTS 2018數據集的腦腫瘤分割數據實施的,BraTS 2018 數據集包含有285位腦腫瘤患者的MRI掃描結果。

研究人員表示:“聯邦學習在無需共享患者數據的情況下,即可實現協作與分散化的神經網絡訓練。各節點負責訓練其自身的本地模型,並定期提交給參數服務器。服務器不斷累積並聚合各自的貢獻,進而創建一個全局模型,分享給所有節點。”

研究人員進一步解釋道,雖然聯邦學習可以保證極高的隱私安全性,但通過模型反演,仍可以設法使數據重現。為了幫助提高聯邦學習的安全性,研究人員研究試驗了使用ε-差分隱私框架的可行性。這個框架是一種正式定義隱私損失的方法,可以藉助其強大的隱私保障性來保護患者與機構數據。

NVIDIA團隊解釋到,聯邦學習有望有效聚合各機構從私有數據中本地習得的知識,從而進一步提高深度模型的準確性、穩健性與通用化能力。

英偉達與倫敦國王學院研究人員在MICCAI上介紹了聯邦學習技術的更多實施細節:

深度學習神經網絡在多種醫學應用中都顯示出很好的效果,但它高度依賴於訓練數據的數量和多樣性。在醫學成像方面,這構成了一種特殊困難:例如,由於患者數量或病理類型的原因,所需的訓練數據可能無法在單個機構中獲得。同時,由於醫療數據隱私規定,在集中數據湖中收集和共享患者數據通常是不可行的。

聯邦學習則允許在不共享患者數據的情況下對DNN進行合作和分佈式訓練。每個節點都訓練自己的本地模型,並定期將其提交給參數服務器。服務器收集並聚合各個節點模型以生成一個全局模型,然後與所有節點共享。

需要注意的是,訓練數據對每個節點都是私有的,在學習過程中不會被共享。只共享模型的可訓練權重或更新,從而保持患者數據的私密性。因此,聯邦學習簡潔地解決了許多數據安全挑戰,將數據放在需要的地方,並支持多機構協作。

論文也披露了客戶端模型訓練過程、服務器端模型聚合過程、部署在客戶端的隱私保護模塊,以及聯邦學習實驗項目的配置與實驗結果。研究人員表示,未來他們將探索用於醫學圖像分析任務的微分隱私SGD算法。

聯邦學習與安防

安防,是目前計算機視覺變現最快的領域。

宇視科技CEO張鵬國曾在接受雷鋒網專訪時提到,“當前AI安防落地能力與用戶需求存有較大差距,前者還需面對數據隱私保護與安全管控、低成本、流程再造、組織變革等挑戰。”

具體來看,最為核心的痛點是,數據不夠多元,且異常封閉。

中國擁有龐大的人口數量、用戶量及圖像採集點,相關企業得到數據之後經過篩選、過濾、疊加、組合,會對自身算法效果有階段性提升。

但這類提升屬於個人式的、微乎其微式的。

每個安防廠商所建設的AI系統類似一個又一個的“煙囪”,“煙囪式”架構也就是垂直的體系結構。

每一個IT系統都有自己的存儲和設備,以及獨立的管理工具和數據庫,不同的系統不能共享資源、不能交付和訪問,形成了資源孤島和信息孤島。

由於不同企業的數據庫模型設計和針對的目標有所不同,他們也無法直接交換、共享模型。

即便相關企業間的數據庫可以融合,但受制於隱私、安全等問題,也絕不可如此為之。

有場景缺數據、有數據難共享。這是包括AI安防在內的諸多行業目前存在的普遍問題,也是阻礙AI普惠的最大痛點。

一方面,AI在安防行業的探索才剛剛開始;另一方面,做好AI所必須的數據養料有限且質量較差,不同數據源之間存在難以打破的壁壘。

除了少數幾家擁有海量用戶、具備產品和服務優勢的巨無霸企業外,大多數中小型AI安防企業難以以一種合理、合法的方式跨越人工智能落地的數據鴻溝,或者需要付出巨大的成本來解決這一問題。

多位學術界、工業界領頭人指出:從目前的研究進展來看,“聯邦學習”技術可能是解決以上問題的最佳選擇。

譬如A廠商有校園數據、B廠商有工廠數據、C廠商有社區數據,且這三家廠商都使用了聯邦學習技術。

從業務層面出發,A、B、C這三家廠商便直接獲得了兩種能力:1、最快速地優化自身業務;2、最快速地拓展新業務。

最快速地優化自身業務表現在,平臺每天會有若干個類似A廠商的企業向平臺輸入加密後的數據模型,而這些數據模型中有A廠商非常缺乏的其他數據信息,而A廠商便可根據這些數據去更新自己的算法模型。

最快速地拓展新業務表現在,A、B、C每家廠商都有各自構建好的模型,通過彙總去得到更大的數據模型,在不流通數據的情況下得到數據流通的最好效果,通過資源互補可以在最短時間內安全地獲得對方的能力,去拓展新業務。

從隱私保護層面來看,通常智能攝像頭產生的數據會被上傳到後臺服務器中,然後由部署在服務器上的神經網絡模型根據收集到的大量數據進行訓練得到一個模型,服務商根據這個模型來為用戶提供服務。

這是一種集中式的模型訓練方法,這種方式很難保證數據隱私安全。

而聯邦學習就不再是讓數據發送到後臺,而是在每個企業自己的服務器上進行訓練,並加密上傳訓練模型,後臺會綜合成千上萬的用戶模型後再反饋給用戶改進方案。

其中一個典型應用案例,就是微眾銀行與極視角聯合推出的中國首個視覺聯邦學習系統。

以視頻攝像頭中的火焰識別為例,AI工程師們可能千辛萬苦訓練了一個火焰檢測的識別模型,想要用在監控攝像頭中,識別是否有燃燒現象,從而對火災發生的可能性進行分析,實現火災預警。

原有的AI算法可以比較準確地識別有明顯大面積燃燒和明火發生的常見場景。然而,遇到打火機點出的火焰時,攝像頭就有些“懵”了。

如果想讓模型增強識別能力,傳統的AI訓練要求適用方能夠提供一些數據樣本,而這又出現了因網絡帶寬導致的算法準確率不高及數據隱私等問題。

AI醫療、安防的最大變量:聯邦學習誕生1000天的真實現狀

在聯邦視覺系統中,依託本地建模,在保證各方數據不出本地的情況下,即可提升AI算法準確率。

在一次公開分享中,微眾銀行AI部門副總經理陳天健透露,“在‘聯邦視覺系統’項目中,通過聯邦學習技術,整體模型的性能提升了15%,且模型效果無損失,極大地提升了建模效率。”

聯邦學習與金融信貸風控

在眾多金融業務環節中,飽受數據隱私和孤島效應困擾的信貸風控,無疑是實現聯邦學習落地的最佳場景之一。

微眾銀行聯邦學習團隊指出,基於聯邦學習的信貸風控解決方案,能夠“在建模過程中,雙方交換梯度值,類似於方向向量的概念,交換的是中間變量,不是原始數據。同時對這個中間變量還進行了同態加密,所以數據並不會出庫,保證數據源和應用方的數據安全。”

聯邦學習所採用的局部數據收集和最小化原則,將降低傳統中心化機器學習方法帶來的一些系統性隱私風險和成本,這樣的效果也正契合了信貸風控的提升方向。

總的來說,這一做法是試圖通過聯邦數據網絡進行信貸風控增強,在貸前環節利用更豐富的數據信息綜合判斷客戶風險,幫助信貸公司過濾信貸黑名單或明顯沒有轉化的貸款客戶,進一步降低貸款審批流程後期的信審成本。

在貸中,採用聯邦學習的解決方案主要提供根據用戶放款後的行為變化進行的風險評估產品,幫助放貸機構進行調額調價的輔助決策。

對於貸後風險處置,方案則提供可以根據客戶的行為進行催收預測的產品,幫助放貸機構進行催收的策略評估,調整催收策略,提升催收效率。

微眾聯邦學習團隊表示,在具體實施上,解決方案會先行使用聯邦學習雲服務進行業務冷啟動,並通過建立業務及AI模型閉環,小樣本建模,後期持續迭代優化模型的方式,實現項目數字化,便於消費金融業務方及信貸合作方能夠持續積累業務數據優化聯邦模型。

以微眾銀行與合作伙伴公司的情況為例,微眾的特點是有很多用戶Y,數據集可分為X和Y,X是用戶的特徵和行為,Y是最後的結論,我們在銀行的結論是信用逾期是否發生,這是逾期概率,合作的夥伴企業可能是互聯網企業或者是賣車的或者賣保險,不一定有結論數據Y,但是它有很多行為信息X。

現在這兩個領域對於同一批用戶如果要建模,屬於縱向聯邦學習,建立縱向聯邦學習的應用,最後就取得了很好的效果,AUC指標大為上升,不良率大為下降。

AI醫療、安防的最大變量:聯邦學習誕生1000天的真實現狀

通過合法合規的多維度聯邦數據建模,風控模型效果約可提升12%,相關企業機構有效節約了信貸審核成本,整體成本預計下降5%-10%,並因數據樣本量的提升和豐富,風控能力進一步增強。

對合作方信貸機構而言,信貸風控能力也大幅度提升。

通過初審篩選掉黑名單和不可能轉化貸款客戶,在“信審漏斗第一步”減去無效客戶,從而在信貸預審階段使單接口調用成本預計節省20-30%,有效控制了信貸審核成本。

聯邦學習的未知之地

信貸風控、醫療和安防的應用,都只是聯邦學習賦能各領域的冰山一角。

未來包括金融、醫療、安防、零售、政務、工業等各行各業、各個場景都可以依據此技術實現降本增效、開源節流。

聯邦學習的生態建設也在同步進行,只有多方合作、多方認可下的聯邦學習才有望實現效益最大化。

如果你也想參與到人工智能學習和落地的最前沿,瞭解聯邦學習的最新研究成果與應用情況,請持續關注楊強教授的公開課全文整理回顧,以及《聯邦學習系列公開課》的其他課程。



AI醫療、安防的最大變量:聯邦學習誕生1000天的真實現狀


AI醫療、安防的最大變量:聯邦學習誕生1000天的真實現狀


AI醫療、安防的最大變量:聯邦學習誕生1000天的真實現狀


AI醫療、安防的最大變量:聯邦學習誕生1000天的真實現狀



分享到:


相關文章: