AAAI 2020接收論文解讀——聯邦學習的隱含狄利克雷分佈模型


前言


隱含狄利克雷分佈(LDA)是工業級文本挖掘應用程序中廣泛採用的模型。但是,其性能在很大程度上取決於對用戶日常生活中收集的大量文本數據以進行模型訓練。如果數據收集器不可信,則此類數據收集將面臨嚴重的隱私洩漏風險。最近,聯邦學習的興起讓大家找到解決大數據訓練和數據隱私問題的一道妙方。因此,將LDA和聯邦學習的結合也就順理成章了。本文為大家介紹一篇被AI頂會AAAI 2020接收的論文《Federated Latent Dirichlet Allocation: A Local Differential Privacy Based Framework 》。作者均來自北京航空航天大學的Yansheng Wang, Yongxin Tong, Dingyuan Shi。在這篇文章中,作者提出了第一個LDA聯邦學習框架。

論文地址:

http://47.93.51.251/static/paper/2020/AAAI2020_Federated%20Latent%20Dirichlet%20Allocation-A%20Local%20Differential%20Privacy%20Based%20Framework.pdf。


背景

LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構(如圖1所示)。所謂生成模型,就是說,我們認為一篇文章的每個詞都是通過“以一定概率選擇了某個主題,並從這個主題中以一定概率選擇某個詞語”這樣一個過程得到。文檔到主題服從多項式分佈,主題到詞服從多項式分佈。為了訓練LDA模型,我們需要從文檔中推斷出其參數的後驗分佈(文檔-主題分佈和主題-單詞分佈)。一種流行的訓練算法是採樣方法,例如Gibbs Sampling(GS)和Metropolis Hastings(MH)。

AAAI 2020接收論文解讀——聯邦學習的隱含狄利克雷分佈模型

圖1. LDA的圖模型圖

文中作者考慮LDA在聯邦學習的場景,提出FedLDA。一種基於本地差分隱私(Local Differential Privacy,LDP)的框架,用於LDA模型的聯邦學習。FedLDA的核心是一種稱為先驗隨機響應(Random Response with Priori,RRP)的新型LDP機制,既能保證數據的隱私也能保證模型的準確率。


方法介紹

FedLDA的工作流程(如圖2所示):在聯邦學習設置中,文檔主題分佈和潛在變量在本地存儲和更新,即用戶i更新了他/她自己的,而不可信的數據收集器旨在推斷主題詞分佈。在模型訓練期間的每次迭代中,每個用戶將的推論劃分為本地採樣(Local Sample),而數據收集器則將收集進行全局集成(Global Integration)。

AAAI 2020接收論文解讀——聯邦學習的隱含狄利克雷分佈模型

圖2. FedLDA的架構圖

FedLDA主要有兩個步驟:本地採樣和全局集成。


  1. 本地採樣:在迭代t時,每個用戶i將基於當前主題詞分佈和他/她自己的文檔主題分佈為他/她的文檔中的所有單詞采樣新的單詞主題分配。然後可以使用諸如GS和MH之類的採樣方法(我們使用並行的GS作為近似值)。在完成對所有主題分配的採樣之後,用戶i計算出一個更新向量,用表示。然後,對更新向量進行擾動以保護隱私,然後將其傳輸到數據收集器。
  2. 全局集成:在迭代t處,數據收集器從每個用戶收集並聚合,並在將其傳輸給用戶進行下一次迭代之前更新。


實驗結果


實驗中用了三種公開數據集:Reviews,Emails和Sentiments。並在垃圾郵件過濾(spam filtering,SF)和情感分析(sentiment analysis,SA)這兩個真實應用中評估。針對不同的採樣算法、差分隱私參數ε和δ,主題K以及採樣率,觀察其對結果的影響。

AAAI 2020接收論文解讀——聯邦學習的隱含狄利克雷分佈模型

圖3. 在Reviews和Emails數據集上的實驗結果

  • 採樣算法的影響-圖5a,圖5b,圖5c和圖5d顯示了使用GS和MH作為採樣算法的收斂性。在這兩個數據集上,MH的收斂速度都比GS快。對於兩種採樣算法,RRP均明顯優於其他三個基準,最終結果非常接近於非隱私。它的收斂速度可以與原始GS或MH一樣快,但可能會跌至次優值,因此最終結果會受到輕微破壞。
  • ε的影響。圖5e和圖5g示出了隱私預算ε的影響。我們觀察到,對於較大的ε,即較小的η和較低的隱私保護級別,所有方法的困惑度都會降低,與基準相比,RRP仍然是最好的方法。
  • K的影響。圖5f和圖5h顯示了主題數K的影響。隨著K的增加,所有方法的困惑都減小了,這與常識相符。RRP仍然表現最佳,並且也接近無隱私。
  • δ的影響。圖5i和圖5k顯示了δ的影響。我們發現,隨著δ的增大,即失效概率增大,t-kRR的性能將顯著提高。但是對於RRP,結果略有變化,這意味著RRP具有δ的魯棒性。這是合理的,因為我們按頻率對單詞進行排名,並且即使δ很小,廢棄集也已經包含了大部分單詞。在實際應用中,δ期望很小(小於0.1),並且在這種情況下我們方法的性能足夠好。
  • 採樣率的影響L/M。圖5j和圖5l顯示了對L/M的影響,它是填充和採樣過程中的採樣率。如果比率等於0,則意味著我們僅對一條記錄進行採樣,這在圖中被證明是有缺陷的。當採樣率更大時,性能會提高,但是當採樣率接近1時,性能提升不會明顯。這證明,如果採樣率小於1(例如0.7),我們可以獲得類似的結果,同時可以降低通信成本30%。
AAAI 2020接收論文解讀——聯邦學習的隱含狄利克雷分佈模型

表格1. 在真實應用中的結果

我們使用RRP ε= 7.5和ε= 5實施FedLDA。在垃圾郵件過濾中,我們觀察到FedLDA的精度低於LDA,但召回率更高。如果ε= 7.5(即每次迭代將干擾5%的單詞),則AUC的減少最多為2.7%;如果ε= 5(即40%的單詞將受到干擾)的AUC最多減少5%。每次迭代)。從情感分析來看,差異甚至更小,如果ε= 7.5,則只有AUC降低1.6%,這證明我們的方法仍然有效,並且不會對實際應用中的性能造成大的損害。

總結


該論文提出第一個LDA結合聯邦學習的框架:FedLDA。作者基於先驗隨機響應作為新的差分隱私機制。既保護了用戶的數據隱私,並且保證了模型的準確性。這個論文可以被視為在真實應用場景中,具有高效和有實際意義的聯邦主題模型。


END

投稿或尋求報道:[email protected]


AAAI 2020接收論文解讀——聯邦學習的隱含狄利克雷分佈模型


Federated Learning

長按上方二維碼


分享到:


相關文章: