Bengio 一作論文:因果機制、元學習與模型泛化如何產生關聯?

選自arXiv

作者:Yoshua Bengio 等

機器之心編譯

參與:魔王

Yoshua Bengio 等人發表研究,基於學習器適應新分佈的速度提出一種元學習因果結構。

Bengio 一作論文:因果機制、元學習與模型泛化如何產生關聯?


Yoshua Bengio 等人基於學習器適應新分佈的速度提出一種元學習因果結構,這些新分佈由干預、智能體動作以及其它非穩態(non-stationarity)導致的稀疏分佈變化引起。這項研究證明,在此假設下,正確的因果結構選擇會使學習器更快地適應修改後的分佈,因為在所學知識經過適當模塊化後,分佈變化將集中在一或多個機制中。這導致稀疏的預期梯度,以及在適應此類變化時需要重新學習的有效自由度的數量較少。因而,該研究將適應修改後分佈的速度作為元學習的目標,表明這可用於決定兩個觀測變量之間的因果關係。
分佈變化無需對應標準干預,學習器不具備關於干預的直接知識。該研究證明,因果結構可通過連續變量進行參數化,並以端到端的形式學得。研究者還探索瞭如何將這些想法用於學習編碼器來映射低級觀測變量與導致更快速分佈外適應的未觀測因果變量,進而學得一個表示空間,使之滿足獨立機制以及動作和非穩態導致的機制內微小稀疏變化的假設。

Bengio 一作論文:因果機制、元學習與模型泛化如何產生關聯?

論文鏈接:https://arxiv.org/pdf/1901.10912.pdf
機器學習方法的泛化難題
目前的機器學習方法在訓練分佈以外的數據上泛化效果較弱,而泛化在實踐中又是必然的。因此在與訓練數據來自同一分佈的測試集上取得優秀的泛化效果還不夠,我們還希望在一個數據集上學得的內容可以在其它相關分佈上實現很好的泛化。這些分佈可能包含學習器見過的概念,而變化通常源於智能體的動作。一般而言,我們希望先前學得的知識能夠形成堅實的基礎,使學習器很快地適應新型相關分佈,即獲得優異的遷移結果。學習器可能仍需學習一些新概念,但是由於大部分其它相關概念(及其構成)已經被學習器捕捉,因此在遷移分佈上的學習將非常迅速。
在缺乏假設的情況下,在無關的分佈上實現成功的遷移是不可能的。這項研究假設在以適當的模塊化方式表示知識時,分佈變化是稀疏的,只有一個或少量模塊發生變化。當分佈變化由一或多個智能體的動作引起(如因果關係文獻中探討的干預)時尤其如此,即因果變量被限定為某個特定值。通常,智能體很難同時影響多個底層因果變量,儘管該研究並未過多涉及智能體學習,但它利用了智能體學習環境來幫助發現這些變量及其彼此之間的因果關係。


要想激發對因果結構推斷的需求,你需要考慮真正實施或在想象中實施干預。若要以考慮干預的方式進行適當規劃,那麼你需要想象干預導致的變量聯合分佈的變化,即使之前從未見過這種變化。這超出了良好遷移學習的範疇,需要因果學習和因果推理。因此,僅學習觀測變量的聯合分佈還不夠。你還應當充分學習底層高級變量及其與恰當推斷干預效果的因果關係。例如,A=Raining causes B=Open Umbrella(反之則不然)。改變 Raining 的邊緣概率(如由於天氣發生變化)不會改變 A 和 B 之間的關聯機制(P(B|A)),但這會對 P(B) 產生影響。反過來,智能體對 B (Open umbrella) 的干預不會影響到 A (Raining)。這種不對稱僅從 (A, B) 訓練對中通常是無法看到的,除非分佈發生變化,比如干預引起的分佈變化。
這是該研究的動機,即學習器基於未必已知的干預帶來的一組分佈進行學習,不僅能夠捕捉聯合分佈,還能發現一些底層因果結構。
Yoshua Bengio 等人的新思路
機器學習方法通常利用某種形式的數據分佈假設(沒有免費午餐定理告訴我們不要對泛化抱有信心)。該研究不僅考慮數據分佈假設,還考慮分佈的變化(如由於智能體的某些動作,訓練分佈轉變為遷移分佈)。該研究依賴這一假設:當關於分佈的知識得到恰當表示時,分佈的變化較小。這得益於底層假設(不過該假設很難直接驗證):由於干預的某種泛化形式導致分佈變化,因此僅有一個或少量真值機制發生改變。

如何才能利用這一假設呢?該研究進行了理論和實驗驗證,發現如果擁有正確的知識表示,則在訓練分佈上經過良好訓練的模型能夠快速適應遷移分佈。這得益於該研究的假設:真值數據生成過程是獨立機制的組成部分,當訓練分佈變成遷移分佈時,僅有少量真值機制和參數需要改變。因此,捕獲對應知識分解的模型僅需要少量更新和示例即可適應遷移分佈。下文將展示,在未經更改的參數上預期梯度接近於 0(前提是模型在訓練分佈上得到很好的訓練),因此在適應遷移分佈的過程中有效搜索空間將大大縮小,從而實現快速適應。
因此,基於「正確的知識表示空間帶來微小的分佈變化」這一假設,研究者定義了度量適應速度的元學習目標,從而優化知識的表示、分解和結構化方式。這是該研究的核心想法。注意,在存在更多非穩態(即分佈出現很多變化)時獲得的信號也會更強,就像元學習中更多的元示例會帶來更好的結果一樣。
通過這種方式,研究者將機器學習領域通常認為的麻煩事(非穩態、不受控制的干預等導致的分佈變化)轉換成訓練信號,從而找到一種恰當的方式將知識分解為匹配微小變化這一假設的組件和機制。因此,研究者最終以端到端的方式對在分佈變化上的快速遷移及其穩健性進行優化。如果數據真的基於獨立因果機制的組成部分生成,則存在模擬該結構的知識分解。如果在每個時間步中,現實世界智能體只能改變一個或少量高級變量(或生成這些高級變量的相關機制),則該研究關於(正確知識表示的)微小變化的假設得到驗證。此外,除了實現快速遷移以外,該研究或許還能將對真實因果分解的近似恢復為獨立機制(達到觀測和干預能夠揭示這些機制的程度)。

何為因?何為果?
學習具備兩個離散變量的因果圖
假設 A 和 B 是可以取 N 個可能值的離散變量,則考慮使用以下公式(A → B 模型和 B → A 模型)來估計其聯合分佈:

Bengio 一作論文:因果機制、元學習與模型泛化如何產生關聯?


關於適應遷移分佈的實驗


研究者進行了多次實驗,來對比正確的因果模型和不正確模型在遷移分佈上的學習曲線。在來自不同但具備相關性的遷移分佈的數據上僅執行少量梯度步的適應對於獲得元學習算法可用的信號至關重要。為了展示適應的效果,促進對來自遷移分佈的少量數據的利用,研究者在離散隨機變量上對模型進行試驗,變量可取 N = 10 個可能值。

Bengio 一作論文:因果機制、元學習與模型泛化如何產生關聯?


分享到:


相關文章: