聯邦學習能打破數據孤島嗎

聯邦學習能打破數據孤島嗎

(圖片來源:壹圖網)

【超級平臺】

陳永偉/文

數據引發的煩惱

美國當地時間4月25日,社交網絡巨頭臉書發佈官方消息,證實在對劍橋分析公司(CambridgeAnalytica)濫用數據醜聞進行了漫長的調查後,聯邦法院已正式批准該公司去年7月與美國聯邦貿易委員會(FTC)達成的和解協議。根據和解協議,臉書將支付高達50億美元的鉅額罰款,併成立一個獨立的隱私委員會,主動識別潛在的隱私風險,以便實施緩解措施。自此,持續數年的“劍橋分析門”終於得以告一段落。

“劍橋分析門”事件雖然已經結束,但它留下的影響卻是深遠的。近年來,隨著大數據、人工智能等技術的興起,人們對於數據的利用水平獲得迅速提升。通過對數據的分析,人們可以輕鬆地發掘出大量潛藏在事物背後的規律,並將它們用於商業實踐,從而產生巨大的經濟價值。與之對應的,原本分文不值的數據也搖身一變成為了數字經濟時代至關重要的生產要素。然而,在數據身價節節上升的同時,一大串問題也湧現了出來:數據的產權究竟屬於誰?在蒐集和使用數據的過程中,如何保證數據安全和用戶隱私?當一些公司擁有了龐大的數據,應該怎樣應對由此可能產生的數據壟斷和數據霸權?……

圍繞著以上這些問題,很多人展開了各自的探索。根據探索的方向,這些努力大致上可以分為兩類:第一類是法學的探索。在法學家們看來,當前數據的蒐集和使用過程中之所以會出現種種問題,其關鍵就在於各種相關的法律和規範滯後了,不能適應時代發展的需要。針對這一問題,他們正積極推進立法,努力彌補法律和制度上的各項不足和漏洞。第二類則是技術的探索。在技術專家看來,數據應用中存在的各種問題本質上都是技術問題,只要技術進步了,問題就會迎刃而解。到目前為止,技術人員已經沿著這一方向進行了很多的努力,開發出了包括安全多方計算、區塊鏈在內的眾多新技術。而最近興起的“聯邦學習”技術,就是這些新技術中比較引人注目的一種。

機器學習的軟肋

在討論聯邦學習(Federated Learning)之前,我們需要花費一些篇幅來討論一個更大的概念——機器學習(Machine Learning)。最近幾年,人工智能大火。但熟悉人工智能的朋友應該知道,作為一個龐大的學科,人工智能其實有很多分支。在這些分支中,真正火了的其實就是機器學習這一支。

何謂機器學習?通俗地講,就是讓計算機使用算法解析數據並從中學習,從而得出規律,然後對世界上的某件事情做出決策或預測的學問。舉例來說,如果一個分析師希望知道有哪些因素影響了電商平臺的銷售業績,那麼他就可以把電商銷售數據,以及可能影響銷售的各種變量,例如價格、流量、投入廣告量等一起輸入電腦,然後電腦就可以通過算法,得出一組關於某某變量增加一單位,會導致銷量變化多少個百分點的關係。這個從分析數據到發現規律的過程,就是機器學習。

很顯然,對於機器學習這種從數據到規律的學習過程,兩個因素是至關重要的:一是算法,二是數據。其中,算法主要解決“怎麼學”的問題,而數據解決的則是“從哪兒學”的問題。過去幾年中,這兩個因素碰巧都取得了很大的發展——在算法上,深度學習異軍突起,解決了很多長期困擾技術人員的問題;在數據上,隨著互聯網技術的進步,海量的數據得以被不斷生產、存儲下來。正是在這兩個因素的共同推進之下,機器學習也迎來了春天。

不過,在經歷了幾年的繁榮之後,機器學習也正在遭遇瓶頸。在決定機器學習效率的兩個因素中,算法的進步是相對緩慢的,突破性的進展可能要幾年或者幾十年才能遇上一回。在經歷了深度學習的崛起之後,整個機器學習要迎來下一輪的算法突破,恐怕還要等上不少時間。而看起來,數據因素的突破似乎是比較容易的,畢竟在互聯網時代,每天都有無數的數據被創造出來。但是,事實卻並非如此。

誠然,在這個時代,數據是不會缺的,但它們卻散落在不同的人手裡。要將所有的這些數據集中到一起來加以分析,簡直是難如登天。舉例來說,假設我們希望研究人們每月在線購物支出在收入中所佔的比重與教育水平之間的關係。從表面上看,這個問題十分簡單,我們只需要知道人們每月的在線購物支出、個人收入,以及教育水平這三個變量,然後同構一個簡單的迴歸就可以搞定這個問題。但我們要從哪兒知道一個人每月究竟有多少在線支出呢?他可能在很多平臺消費,並且通過很多支付渠道來付款。這些數據分散在各個互聯網公司的手中。個人收入數據呢?要確切知道這點,需要拿到這個人的工資單,然後再調查他的非工資收入。這些數據源,都分散在不同的人手裡,彼此之間像一個孤島一樣沒有聯繫。

怎麼把這些數據集中起來呢?一個方法是進行調查,直接選取一個樣本,讓樣本中的被訪者來提供這些信息——這就是傳統的統計學所用的方法。但這種方法的缺陷是相當明顯的:一方面,被訪問者出於隱私等問題的考慮,很可能不會如實提供這些信息。尤其是像收入這樣敏感的數據,很多人都不願提供。另一方面,要進行類似的調查,成本往往非常高,因此,蒐集的樣本數量通常也難以很大。而如果數據樣本過小,那麼先進的算法也就沒有了特別的意義。

另一個方法是從不同的數據集擁有者手裡去獲取數據。但這又談何容易?且不說很多數據對於擁有者來說是核心資產,不能外洩。即使這些數據擁有者同意提供數據,數據的使用者又如何能夠向數據提供者保證數據的安全、用途的正當?事實上,本文開頭的“劍橋分析門”事件,原本就起源於臉書的數據開放項目。根據臉書當時的規定,人們可以在其網站上搜集數據用於學術研究工作。但是,劍橋分析公司從臉書蒐集了數據後,卻沒有像先前承諾的那樣,把數據的使用範圍限制在純粹的研究工作上,而是將其用到了影響和操控選舉。

正是由於考慮到類似的問題,很多數據擁有者即使主觀上願意分享自己的數據,在實際提供時也會十分猶豫。需要說明的是,儘管區塊鏈等新技術的興起在某種程度上緩解了這一問題,但卻未能從根本上解決它。雖然藉助這些新技術,人們可以對數據打上時間戳,從而對數據的使用和傳輸進行一定程度的監控,但這些監控只能通過計算機實現。一旦人們採用更為傳統的手法,例如肉眼觀察、手工記錄等方法傳播數據,那麼即使採用這些新技術,也很難有效追蹤數據的走向,自然也就不能有效防止數據洩露的風險了。

聯邦學習:打破數據孤島的新希望

如何才能解決數據蒐集、使用、傳播等環節存在的問題,讓分散在各處的數據有效整合起來,更好地用於分析呢?當大多數人都把思考聚焦於數據,試圖從數據出發找到答案的時候,有一些人卻想到了另外一條思路。

事實上,無論是數據蒐集過程中可能產生的侵犯隱私問題,數據傳輸過程種可能的數據洩露問題,還是佔有數據之後可能引發的數據壟斷問題,其癥結都在於數據的集中處理模式。正是由於人們需要把數據集中起來進行處理,所以才需要蒐集和傳輸數據,在這個過程中才可能會侵犯隱私,才可能會洩露數據,才可能會產生數據的集中和壟斷。從這個意義上講,只要這種集中處理數據的模式被改變了,那麼以上所有的問題就會迎刃而解。所謂的聯邦學習技術,就是在這種思路的指引下產生的。

和傳統的機器學習算法要求集中處理數據不同,聯邦學習把算法發到所有的數據擁有者手中,在本地對數據進行學習,然後對所有分別學習的結果進行整合,得到最終結果。形象地說,如果傳統的機器學習是把數據“喂”給算法,那麼聯邦學習就是讓算法去主動覓食。

在聯邦學習的過程中,數據都沒有離開本地,分析者也不直接接觸到數據,因而前面提到的那一系列和數據相關的問題也就自然不存在了,而數據的擁有者們也就可以在充分保證自身數據安全的前提之下更好地開展合作,更有效地挖掘和利用數據中包含的價值。這個過程就好像數據邦國在保持各自獨立的前提下,通過算法組成了一個機器學習的聯邦,“聯邦學習”也因此而得名。

在現實中,分析人員所面臨的數據分散狀況大致上可以分為三類。

第一類是所謂的“橫向”分散。舉例來說,我們想要分析心血管疾病的成因,就需要蒐集儘可能多的病例信息。各個醫院都有一些病人的病例信息,並且每個醫院蒐集的變量維度都差不多。這種變量維度類似,僅僅是觀察對象的分散,就被稱為“橫向”的分散。

第二類是所謂的“縱向”分散。這種分散和“橫向”分散正好相反,它面臨的情況主要是多個數據集之間有共同的觀察對象,但每個數據集的變量卻不同。例如,在分析徵信問題時,我們需要包括個人的家庭條件、教育水平、收入狀況、消費記錄等眾多的變量信息。這些信息分散在很多數據擁有者的手中,每個數據所有者都只有其中的一個或幾個變量,這時數據的分散就被稱為是“縱向的”。

第三類分散則同時包含了“橫向”和“縱向”的特徵,觀察對象和變量維度之間的重合都比較小。例如,當我們要進行一次關於企業盈利因素的跨國分析時,我們就需要蒐集各個國家企業的財務信息。這些信息分佈在不同國家、不同機構的手中,並且每個數據所有者手裡的變量信息也各不相同。此時,我們要處理的數據就既是“橫向”分散的,也是“縱向”分散的。

針對以上三種不同的數據分散狀況,研究人員設計出了三種不同的聯邦學習方法,也就是“橫向聯邦學習”、“縱向聯邦學習”,以及“聯邦遷移學習”。橫向聯邦學習的思路比較簡單。在學習的過程中,分析者把相同的算法模型發到各個數據所有者手裡,每個數據所有者都基於自己的樣本進行學習,然後把結果反饋給分析者,分析者通過對這些結果的整合來得到想要的信息。縱向聯邦學習要複雜一些。它首先要通過加密傳輸,將不同來源的數據整合到一個第三方的數據中心,然後將整個學習任務拆成不同的部分,再分給各個數據所有者來完成。在學習過程中,不同的數據所有者之間需要通過加密信息傳遞來不斷修正模型,最終得出學習結果。遷移學習是三種聯邦學習中最複雜的。它需要先找到被觀察者和變量之間的相似性,據此來對數據進行處理和轉換。在完成了這一切後,再根據類似縱向聯邦學習的方法來完成機器學習。

實踐當中,最早把聯邦學習技術投入應用的是谷歌公司。2017年,谷歌推出了一款基於安卓手機的聯邦學習程序。它通過將算法程序發送到每個用戶的手機上,然後回收反饋信息,進而獲得想要的分析結論。在看到了谷歌的實踐後,國內的大型互聯網企業也很快認識到了聯邦學習的價值,“騰訊系”的微眾銀行、“阿里系”的螞蟻金服都陸續推出了與之類似的技術解決方案,並將它們應用到了實踐領域(注:螞蟻金服將自己的方案稱為“共享學習”,但從本質上看,它和聯邦學習的思路是一致的)。在這些大型互聯網企業的推動之下,目前聯邦學習技術已經開始在金融、保險、電子商務等領域得到了應用,而其潛在的應用前景更是相當可觀。在一些行業研究機構發佈的報告中,這一技術甚至已經被譽為了“推動人工智能下一輪高潮的重要力量”,以及“數字時代的新基礎設施”,其重要性可見一斑。

聯邦學習帶來的新問題

縱觀技術的發展史,我們不難發現一個規律:新技術的產生往往可以解決很多舊的問題,但與此同時,它也可能會引發很多新的問題。作為一項新興的技術,聯邦學習當然也難逃這個規律。

誠然,聯邦學習打破了數據集中處理的固有模式,一舉解決了由此引發的很多問題,其價值無可估量,但它在應用中所可能遭遇的問題也是十分值得關注的:

其一,聯邦學習技術其實並沒有完全破解數據孤島等問題。以橫向聯邦學習為例。在現實當中,很多企業都有了解整個行業動態的需求,從這個意義上講,它們對於橫向聯邦學習的需求是很大的。但是,它們真的會放心參與到聯邦學習過程中來嗎?恐怕未必。這是因為,一旦企業參與了聯邦學習,它就必須貢獻自己的數據集。這樣,儘管它未必會暴露具體的數據條目,卻會暴露自己數據中掩藏的信息。如果市場上的競爭企業很多,這種情況可能未必嚴重,但如果市場上只有少數幾家企業,情況就完全不一樣了。極端的講,如果市場上只有A、B兩個企業,那麼其中任何一個企業都可以結合自有數據的分析結果以及聯邦學習的結果來很好地推斷出對手的信息。

至於縱向聯邦學習和聯邦遷移學習,企業在參與時所面臨的顧慮就可能更大了。根據縱向聯邦學習的原理,在執行學習時,各方事實上需要把數據集中到一個第三方的數據中心。儘管在過程中,參與學習的各方可以通過數據加密來讓數據安全獲得一定的保證,但從本質上講,整個學習並沒有完全去中心化。至少在理論上,在數據的傳輸,以及數據集中存放在第三方數據中心的過程中,都可能有數據洩露的可能。

其二,聯邦學習的應用對於硬件可能具有一定的要求,而這可能引發出很多新問題。正如前面指出的,在聯邦學習的過程中,數據擁有者需要在本地完成大量的計算任務,而這可能耗費廣大數據擁有者的巨大算力。這對面向B端的學習任務來講可能算不上什麼問題,但對於面向C端的任務則可能是個大麻煩。

在現實中,大量的數據都是分散在廣大的C端用戶手中的,對於多數企業來講,這些數據也是最有價值的。因此,一旦擁有了聯邦學習技術,企業們最希望的,可能就是把自己的算法放到C端用戶的終端上進行學習。不過,C端用戶的計算能力往往是有限的,因而就會產生相應的問題:一方面,過於複雜的學習程序並不適合投放到他們的終端,否則就會影響他們自身對終端的使用,這就對學習任務的複雜程度提出了一定的限制。另一方面,由於大量企業都希望將自己的算法投入到用戶的終端,但用戶對算法的接受程度又是有限度的,因此“究竟誰有權這麼做,誰沒權這麼做”、“在投放學習程序時應該得到怎樣的授權”等問題就會出現。而要處理這些問題,恐怕不會比搞清楚“數據的產權究竟歸誰”,“平臺在數據使用時應該得到哪些授權”等問題來得容易——事實上,從某種程度上講,這些新問題只不過是把老問題變了個視角,重新問了出來。

其三,在聯邦學習中,如何處理參與者的激勵也是一個問題。除了前面所說的安全考慮外,激勵和回報也是制約人們參與聯邦學習的一個障礙。從數據擁有者的角度看,我既然貢獻了數據,那麼又能從中獲得多少回報呢?如果這個問題不能很好地被回答,人們參與聯邦學習的積極性就會受到很大的打擊。

我們知道,作為一種新型的生產要素,數據的價值是很難衡量的。我們通常說“大數據”,好像數據規模越大就越有價值,但現實卻並非如此。事實上,很多規模巨大的數據本身所包含的信息卻非常少,大量的記錄都是無用的噪聲,對於這樣的數據,其價值並不會和其規模成正比。在傳統的集中數據處理模式下,人們在購買數據的過程中,可以對數據的質量進行檢驗,並根據數據質量給出對應的估價,因而可以讓數據交易雙方獲得一個比較好的共識。而在聯邦學習的條件下,學習的參與者並無法檢驗其他參與夥伴給出的數據質量,因而也自然無法對數據質量進行估價。在這種情況下,要對數據的提供者提供合理的激勵,讓他們感到獲得了公平的回報就是一件十分困難的事。從難度上講,它甚至遠遠超過了現在的數據定價問題。

目前,已經有一些研究試圖對這一問題進行回答。例如,在一篇論文中,提出了用合作博弈論中的“沙普利值”(ShapleyValue)的概念來處理這個問題。簡單來說,它根據每個用戶提供的數據對於最終結果的影響比重來衡量他們對學習的貢獻。這似乎是一個不錯的主意,但問題也是很多的。例如,假設一個用戶提供了很多無用或虛假的數據,它很可能讓整個模型的結論產生巨大的變化,然而根據沙普利值,它在學習中給出的貢獻卻會是最大的。

其四,聯邦學習事實上也為造假或攻擊留下了漏洞。舉例來說,如果一個企業試圖干擾對手企業的決策,它完全可以把學習程序放到一個虛擬的數據集上進行學習。這樣一來,對手獲得的信息就會是十分具有誤導性的。

其五,聯邦學習也可能對市場的競爭產生一些潛在的負面作用。一方面,這種技術很可能會加強一些平臺的市場力量。在聯邦學習的三種模式中,後兩種模式在學習過程中都需要藉助於一個第三方數據中心才能完成。這個第三方數據中心從哪兒來呢?它一般都是學習服務的提供者,或者與其有關聯的企業提供的。從這個意義上講,聯邦學習服務的提供就強化了它們在數據中心,或者雲市場上的市場力量,使這些市場上的對手更難與它們開展競爭。另一方面,聯邦學習很可能會稱為一種新的共謀的工具。在傳統條件下,企業之間進行共謀往往需要公佈自己的一些數據信息。正是考慮到洩露自身數據所帶來的風險,所以一些企業會在進行共謀時比較猶豫。而有了聯邦學習後,企業可以在不洩露具體數據的同時,完成必要的信息交換,這就給共謀提供了更好的條件。

最後,聯邦學習引發的知識產權問題也可能會是一個問題。在聯邦學習的過程中,算法提供者,以及所有的數據所有者都投入了貢獻,從理論上講,它們都有一定的資格獲得最終模型的知識產權。在這種情況下,誰能獲得、使用、授權這些知識產權,恐怕也是一個比較值得思考的問題。

綜上所述,聯邦學習雖然解決了由於數據集中所帶來的很多問題,但它本身卻又會引發很多新的問題。要徹底解決這些問題,我們恐怕還需要投入很多新的努力。


分享到:


相關文章: