02.26 “硬核”技術|聯邦學習用“小數據”實現“大智能”

“硬核”技術|聯邦學習用“小數據”實現“大智能”

深度學習的挑戰

如果我們追溯歷史會發現,當下正值爆發期的人工智能技術,在過去60年間的發展是一個螺旋上升的增長曲線,期間遭遇過質疑,經歷過寒冬。直到深度學習的出現,利用多層神經網絡模擬人類大腦神經元的信息傳遞方式,才使得人工智能技術開始大放異彩。


從20世紀50年代引入感知器開始,到80年代多層感知器及反向傳播算法,再到2010興起的深度學習,幾乎每三十年技術都會經歷一次質的躍遷,與此同時自20世紀80年代以來,全世界的數據總量每三年就會翻一番。大數據促成了深度學習的騰飛,然而其背後的隱憂也隨之而來。


1、數據壟斷加劇 數據孤島林立

達維多定律認為在網絡經濟中,進入市場的第一代產品能夠自動獲得50%的市場份額。


儘管無數業界人士都發出過警惕數據壟斷的呼聲,但現實情況正在向少數巨頭壟斷,小企業獲取數據困難,大大小小“數據孤島”林立的局勢滑落。


2、誰擁有最多數據,誰就擁有最大的話語權

如果沒有數百萬張圖像和其他類型的標籤數據,就無法訓練真正的大型深度學習網絡,換言之那些擁有大數據的公司可以創建各類預測模型來進行“操控”,比如臉書將5000萬人的數據賣給劍橋分析公司,從而影響美國總統大選。近年來,歐美各國頻繁頒佈數據安全、隱私保護相關的政策,未來對於數據的使用將變得更加謹慎。


3、大數據 高能耗

運行人工智能應用的大型網絡需要巨大的運算能力,按照摩爾定律,計算機的運算能力每18個月才會翻一番,目前深層神經網絡模型有數百萬個單元和數十億的權重,比人類大腦皮層中的神經元和突觸的數量少一萬倍,人的大腦本身就是一臺超級計算機,功耗只有幾瓦,而運行一臺超級計算機則需要幾百萬瓦的能耗。高耗能對於深層神經網絡的發展,將會是一個非常巨大的挑戰。


為什麼是聯邦學習?

當前,大多數機器學習算法是在20年前開發的,那麼現在是否存在一種算法可以把複雜問題變得簡單化,既保證系統的複雜性泛化能力,又能求得最優目標函數,又能兼顧數據的安全性呢?


同盾科技副總裁兼人工智能研究院院長李曉林教授正在帶領團隊,致力於「聯邦學習」技術的研發。李曉林是美國公立常春藤名校佛羅里達大學的終身教授,牽頭創立了美國國家科學基金首家深度學習中心NSF CBL。


李曉林在某次同盾行業大會上,深度剖析了「聯邦學習」所展現出的強大的應用前景。


“硬核”技術|聯邦學習用“小數據”實現“大智能”

同盾科技副總裁兼人工智能研究院院長李曉林教授


Q&A


Q:「聯邦學習」是個什麼東西?

顧名思義,“聯邦”的概念是脫胎於“聯邦政府”、“聯邦國家”而來,政治術語中聯邦是指規定各州自治權保留給州政府,只有外交、軍事等權限移交給聯邦政府,在這樣的框架安排下,各州共同組成一個國家。


「聯邦學習」與其非常類似,它是一個採用分佈式深度學習技術,參與各方在加密的基礎上共建一個公共虛擬模型,訓練和交互的全過程各方的數據始終留在本地,不參與交換和合並。


Q:「聯邦學習」有什麼優勢?

李曉林介紹說:“聯邦學習的好處是不求所有,但求所用。不管是聯合建模或聯合學習都不需要傳輸聚集大量數據,只需要做一些參數上面的交換,用‘小數據’就能實現‘大智能’,整個交互是非常輕量級的。


基於聯邦學習去中心化的算法邏輯,使得參與各方沒有一方能擁有所有的數據,也沒有一方擁有所有的模型,共用開放數據,而不享有數據,能最大化保護數據安全和數據隱私。”


以對信息安全敏感度很高的金融為例。眾所周知,銀行內存在嚴重的“數據孤島”問題。當下很多銀行的做法較為“粗糙”,就是純粹找來儘可能多的大數據,用量來“暴力”求解,但往往收效甚微,而且因為數據合規的限制,這樣的模式也不可能長久。

“硬核”技術|聯邦學習用“小數據”實現“大智能”


Q:「聯邦學習」是怎麼另闢蹊徑的呢?

李曉林教授說:“在聯邦學習的模式下,模型訓練的時候每個銀行和金融機構,各自的數據不需對外輸出,甚至連模型的參數都不用給到對方,只需要將模型梯度的變化告知另一方即可,對方從梯隊的變化不一定能反推出你模型的參數情況。


在整個訓練、交互過程中,模型儘管碰觸了很多數據,但數據卻始終沒有離開本行和本機構,完全化解數據安全、合規的憂慮。這跟原來集中式的大數據模型,有截然不同的思維邏輯。未來在銀行與銀行、銀行與金融機構、銀行與金融機構和科技公司之間的合作,聯邦學習必將走上歷史舞臺,成為主流。”


同時,在聯邦學習的模式下,中小企業的話語權被前所未有的提升,前文我們提到誰擁有最多數據,誰就擁有最大的話語權。試想這樣一個場景,一家中小企業跟國有大行合作,需要雙方同樣拿出100萬的數據,但這或許已經是小企業所擁有的全部數據,對大行來說連零頭可能都算不上。


看似平等的互換,實則不公平。


聯邦學習會避免這個情況,銀行和中小企業都沒有數據流出的憂慮,對於銀行來講只要沒有安全問題,拿出一億和100萬的數據對本地模型的意義是一樣的。聯邦學習就可以使大家都相對比較公平。


當然,基於去中心化、分佈式的計算方式,還是存在一定的系統風險,李曉林教授說:“我們可以通過加密的手段,搭配區塊鏈的手段去防範參數洩露的問題,即使攻擊的一方技術極為高明,參數洩露其實會非常有限。” 他的團隊也在進一步研發更安全的、能抵抗惡意攻擊的算法及機制。


聯邦學習不僅在泛金融領域展現出燦爛的商業圖景,對於人工智能的發展路徑也有著深遠影響。聯邦學習將是同盾科技研發的戰略重心,目前已經有諸多創新在智能信貸、小微金融風控、反欺詐、用戶分析等領域進行探索,

同盾將以人工智能研究院為重要載體,在全球範圍內廣泛招攬中外頂尖人工智能、機器學習等領域的工程師和科學家,與萬千家客戶攜手智能、開放共贏。


--END--

投稿或尋求報道:[email protected]


“硬核”技術|聯邦學習用“小數據”實現“大智能”


分享到:


相關文章: