人人都可以用數據做投資,我們合法合理


引 言


在大數據時代,數據被不斷地收集和分析,不斷地創造價值。公司和組織使用他們收集的數據來提供個性化服務,優化公司決策,預測未來趨勢等等,數據成為了一種寶貴的資產。如果說以前數據是隻可自用的固定資產,現在有了聯邦學習對數據隱私和安全的保護,數據變成了可投資的現金流,是不是聽起來很激動人心!但現實是殘酷的。


首先,既然是投資那就是渴望回報的,在聯合模型訓練過程中,數據提供方在計算和通信方面承受了相當大的開銷,不賺錢的買賣咱一般是不幹的;


其次,聯邦學習這個遊戲很有意思,它是不允許個人獨資的,必須得是合資,那投資1萬塊錢跟投資10萬塊錢,拿一樣的收益,咱也是不願意的;


最後,收益有的時候不是真金白銀,而是某種特定的“優惠政策”(比如:如果你同意參與Google Board的聯合訓練,你就可能會享受更高的單詞預測準確度),尤其對於“小資大量”的移動設備的聯合訓練來說,你給的可能不是我想要的,甚至你的這點小恩小惠我不稀罕要。


所以,很多情況下,大家是不願意參與投資的。好好的生意,何至於如此難堪。因此,建立一個良好的激勵機制變得十分必要。


根據契約理論解決收益分配問題


我們先來解決收益分配的問題。很簡單嘛,我們來籤合同,多勞多得。


何為多勞?作為投資方即數據所有者,他的資本是什麼?一方面是數據的質量,另一方面是計算資源。作為被投資者即任務發佈者也是需要提供計算資源的,他需要收集數據所有者本地模型更新以更新全局模型,並重複訓練過程,直到全局模型的精度達到預定的期望值為止。數據質量越好,局部精度就越高,局部和全局的迭代就會越少,任務發佈者的利潤就越高。而計算資源影響的是局部迭代的計算時間和本地模型更新的通信時間,計算資源效率越高,每次本地更新需要的時間越短,全局迭代需要等待的時間就越短,損耗的資源也就越少,任務發佈者的利潤便會提高。


如何多得?有學者使用契約理論(contract theory )設計了一種有效的激勵機制,任務發佈者根據數據所有者具有的不同數據質量級別和不同計算資源,提供不同的資源獎勵捆綁包。更高的數據質量和更多的計算資源,能夠帶來更快的局部模型訓練和更少的局部迭代次數,便可得到更多的獎勵。數據所有者可以隨意選擇並簽署提供的合同之一,並完成給定的聯邦學習任務。如果數據所有者無法完成學習任務或行為不當,則任務發佈者會將數據所有者列入黑名單並預扣付款。


建立聲譽管理解決擇優選用問題


解決了收益分配的問題,我們再來聊聊因為回報不合口味不願參加怎麼辦?也很簡單嘛,做人留一線,日後好相見。這次不合你口味你不來,下次合你口味了人家不要你了。換言之,任務發佈者也是有選擇權的,其實這裡我們更多探究的是任務發佈者如何選擇數據所有者的問題。


任務發佈者在選擇數據所有者的時候,主要面臨兩個問題:


第一,誰是可信的?對於聯邦學習來說,由於移動網絡架構的開放性和複雜性,移動設備可能會執行惡意的、不可靠的模型更新。一方面,惡意設備利用欺騙性訓練數據或通過不安全的通信信道傳輸數據,造成攻擊。另一方面,由於無線通信信道條件不可靠、高移動性或能量約束造成的數據感知環境差,移動設備可能會無意中產生不可靠的本地更新。無論是有意還是無意的行為都會降低局部數據的準確性和局部模型的更新質量,從而對全局模型的準確性和收斂時間產生負面影響。


第二,在有限的預算下,如何使收益最大化?我們知道,當參與者變多時,數據多樣性會增大,迭代總數會減少,但完成每次迭代所花費的時間卻隨著參與者的數量的增加而增加。兩者之間需要一個平衡,這就意味著存在一個最佳參與數量。這時候博弈論就要上線了,數據質量、計算資源、單位價格都成了雙方拉扯和權衡的依據,在這裡我們就不細聊了。但可以明確的一點是,任務發佈者有權並需要選擇數據參與方。


那該怎麼解決這些問題呢?有學者就提出了將聲譽作為度量標準來評估聯邦學習候選人的可靠性。任務發佈者根據數據所有者的模型更新和訓練行為,評估局部模型更新的質量,為其生成聲譽評價。新的任務發佈者可以將過去的任務中產生的直接聲譽評價和來自其他任務發佈者的間接聲譽評價綜合在一起,進行評估,比如:兩個任務發佈者之間的互動越頻繁,間接的聲譽評價就越可信;積極的互動比消極的互動在聲譽計算上有更高的權重;越近期的交互事件產生的評價計算權重越高等。從而對數據所有者進行選擇。


區塊鏈助力獎勵計算和聲譽管理


前面我們提到了根據任務量計算收入和根據聲譽計算可信度的問題,那麼問題來了,如何保證公平性呢?畢竟在每一次任務中,各方利益是相互牽制的,我們需要一個機制公開透明地量化每一方的貢獻。同時,聲譽管理和聲譽計算也不是幾個人決定的事情,也需要一個可以得到所有人認可的機制去實現。公開?量化?被所有人認可?沒錯,他來了,他帶著他

不可篡改、全程留痕、可以追溯、集體維護、公開透明的特點向我們走來了!兄弟們,上鍊!


首先,可以通過區塊鏈網絡交換設備的本地模型更新,同時驗證並提供相應的獎勵。

人人都可以用數據做投資,我們合法合理

基於獎勵計算區塊鏈的可靠聯邦學習體系結構

圖片來源:《On-device federated learning via blockchain and its latency analysis》

其次,聲譽評價通過採礦者算法驗證後,可以被存儲到數據塊中,由所有發佈者共享。

人人都可以用數據做投資,我們合法合理

基於聲譽區塊鏈的可靠聯邦學習體系結構

圖片來源:《Incentive mechanism for reliable federated learning: A joint optimization approach to combining reputation and contract theory》

由於區塊鏈的分散性和防篡改性,即使在發生爭議和破壞的情況下,數據塊中的信息也是持久的、透明的證據。


聯邦學習激勵機制


結合“契約理論”、“聲譽管理”和“區塊鏈技術”,我們可以形成一套完整的聯邦學習激勵機制流程:

1. 發佈任務

任務發佈者根據其資源需求(例如:數據類型、數據大小和精度、時間範圍和CPU週期等)設計合同,併發布任務。滿足需求的數據所有者可以向任務發佈者返回包含資源信息的響應。

2. 選擇參與者

任務發佈者根據聲譽區塊鏈上的聲譽意見進行聲譽計算,篩選合格的候選人,並進一步根據數據所有者反饋的契約項,進行全局的利潤計算,確定最終的參與者。

3. 執行聯邦學習

每個參與者計算本地模型更新並將其上載到區塊鏈網絡中與其關聯的礦工,然後從礦工那裡獲得與其數據樣本數量成正比的數據獎勵證明;礦工交換並驗證所有本地模型更新,然後運行工作量證明;礦工完成工作量證明後,會生成一個記錄已驗證的本地模型更新的區塊,並從區塊鏈網絡中獲得挖掘獎勵證明;最後,將生成的存儲本地模型更新彙總的塊添加到區塊鏈中,並由各參與方下載。各參與方從最新的塊中計算全局模型更新,並作為下一個局部模型更新的輸入,重複訓練,直到達到全局精度要求。

4. 獲得獎勵

數據所有者完成聯邦學習任務後,憑藉數據獎勵證明和挖掘獎勵證明,並根據合同契約中所規定的內容,從任務發佈者處獲得獎勵。

5. 更新聲譽意見

任務發佈者在完成聯邦學習任務後,根據交互歷史記錄,將帶有參與者數字簽名的信譽意見上載至信譽區塊鏈的礦工。礦商將聲譽意見放入數據塊中,經過塊驗證並執行共識方案後,將該塊添加到聲譽區塊鏈中。


結 語


我們相信在這個“數據即價值”的時代,有了合理完善的激勵機制,聯邦學習定可以大放異彩!


Reference:

[1] T. Yang, G. Andrew, H. Eichner, H. Sun, W. Li, N. Kong, D. Ramage, and F. Beaufays, “Applied federated learning: Improving google keyboard query suggestions,” arXiv preprint arXiv:1812.02903, 2018.


[2] G. Zyskind, O. Nathan, and A. . Pentland, “Decentralizing privacy: Using blockchain to protect personal data,” in 2015 IEEE Security and Privacy Workshops, Ma y 2015, pp. 180–184.


[3] J. Kang, Z. Xiong, D. Niyato, H. Yu, Y.-C. Liang, and D. I. Kim, “Incentive design for efficient federated learning in mobile networks: A contract theory approach,” arXiv preprint arXiv:1905.07479, 2019.


[4] J. Kang, Z. Xiong, D. Niyato, S. Xie, and J. Zhang, “Incentive mechanism for reliable federated learning: A joint optimization approach to combining reputation and contract theory,” IEEE Internet of Things Journal, 2019.


[5] Y. Sarikaya and O. Ercetin, “Motivating workers in federated learning: A stackelberg game perspective,” 2019.


[6] R. Jurca and B. Faltings, “An incentive compatible reputation mechanism,” in EEE International Conference on E-Commerce, 2003. CEC 2003., June 2003, pp. 285–292.


[7] Kim, Hyesung, et al. "On-device federated learning via blockchain and its latency analysis." arXiv preprint arXiv:1808.03949 (2018).


END

投稿或尋求報道:[email protected]


人人都可以用數據做投資,我們合法合理


Federated Learning

長按上方二維碼


分享到:


相關文章: