如何對複雜系統進行重整化?機器學習可以給你答案|傅渥成

如何对复杂系统进行重整化?机器学习可以给你答案|傅渥成

導語

在沒有任何先驗信息的情況,能不能利用機器學習的方法,學會某種“窺一斑而知全豹”的方法,找到那些適當的自由度來進行後續的重整化操作呢?近期發表在 Nature 的一篇論文討論了這一問題,下面是傅渥成對這篇論文的解讀。

論文地址:

https://www.nature.com/articles/s41567-018-0081-4

論文題目:

Mutual information, neural networks and the renormalization group

(一)背景介紹

對於一個有大量自由度的複雜系統,在對其進行研究時,我們會希望找出其中的那些真正重要的自由度。例如,在統計學習問題中,我們會常常用降維的方法來對系統的自由度進行約簡,構造出一些新的主要變量。而在物理學中,我們用重整化(Renormalization)的思路來求解這一問題。

重整化是物理學中面對發散問題時的一種重要方法,在統計物理和量子場論中有許多非常重要的應用。重整化方法希望通過在不同尺度下的標度變換,找到處在臨界態的物理系統在標度變換中的一些不變性。

用一個粗糙的例子來說明降維方法和重整化方法的不同。假如現在有一棵樹,要完整描述一棵樹非常複雜。用降維的方法,我們找到了這棵樹的主成分方向(豎直方向),於是我們用樹的“高度”來簡化對一棵樹的複雜描述。而重整化方法關注的是樹的自相似特徵,因為樹的每一個分支與整棵樹的性狀是相似的,而分支又與更小的分支相似,以此類推。重整化群想要提取的就是隱藏在這些迭代操作中的特徵,希望挖掘出系統在不同的尺度之間的關係。

正因為如此,重整化群找到的是這個系統中“適當”(relevance)的自由度[1],一旦找到了這些自由度,我們就可以“窺一斑而知全豹”,利用這些自由度描述那些支配系統在較大尺度上的行為的特徵,這些自由度不會受到噪聲和局部漲落的影響。

如何对复杂系统进行重整化?机器学习可以给你答案|傅渥成

深度學習的方法與重整化群有許多相似之處。

首先從表面上來看,以基於卷積神經網絡(CNN)的人臉識別為例,在這樣的一個神經網絡上,較為低級的層級首先提取的是圖片中一些邊緣和界面的特徵,隨著層級的提高,圖片中一些紋理的特徵可能會顯現,而隨著層級繼續提高,一些具體的對象將會顯現,例如眼睛、鼻子、耳朵等等,再到更高層時,整個人臉的特徵也就被提取了出來。

在一個深度神經網絡上,較高層的特徵是低層特徵的組合,而隨著神經網絡從低層到高層,其提取的特徵液越來越抽象、越來越涉及「整體」的性質。從更深層次的角度來看,深度神經網絡不是簡單的神經網絡的堆砌,而是能真正從數據中找到數據中的一些隱藏的對稱性和約束。這是非常重要的一個性質。要知道,深度學習的網絡模型容量巨大、參數眾多,而“四個參數就能畫一頭大象”,所以深度學習真正的神奇之處不在於深度學習能解決多麼困難的問題,而在於深度神經網絡經過訓練能夠較穩定地提取特徵、並在實踐中表現出較好的泛化能力。

這意味著深度學習提取到的特徵會是那些不受噪聲影響的慢變量,這與重整化的思路也是一致的,這些“慢變量”也就是我們前面提到的“適當的”自由度。深度學習與重整化方法的這種相似性目前已經吸引了許多來自不同背景的科學家們的注意,近年來也有許多工作嘗試在重整化群和深度學習之間建立聯繫。

(二)文章的核心思路

我們今天要介紹的這一篇文章(Nat. Phys. 2018. 14: 578-582),從一個全新的角度切入了機器學習和重整化的問題。作者們思考的問題是:在沒有任何先驗信息的情況,能不能利用機器學習的方法,學會某種“窺一斑而知全豹”的方法,找到那些適當的自由度來進行後續的重整化操作呢?

如何对复杂系统进行重整化?机器学习可以给你答案|傅渥成

圖1 - 實空間互信息(real-space mutualinformation: RSMI)算法示意圖(原論文圖1)。

作者們考慮的是如上圖所示的一個經典系統,這個系統被分成三部分:第一部分是可見(V)的部分,也就是我們所說的“一斑”,這一部分的信息可以被隱藏層 H提取;構成系統的第二部分是環境(ε),這是我們想要了解的“全豹”;在這二者之間存在著一個緩衝區(B)。

所謂的“窺一斑”,其實也就是指從可見的部分中提取出信息,即在給定 V 的情況下,得到條件概率分佈P(H|V)。怎樣來理解條件概率分佈P(H|V)呢?如果H的節點數目小於V,我們可以說,P(H|V)是對V的一個“粗粒化”的描述,這種粗粒化描述的方法與參數Λ有關(這一參數的物理意義和求解,我們會在後面解釋)。

如果這種粗粒化的描述可以真的讓我們“窺一斑而知全豹”,那麼也就是說,我們從這“一斑”中獲取的信息,與“全豹”中獲取的信息是能重合的。換句話說,上述方法得到的P(H|V)可以使得隱藏層提取的信息 H 跟環境中實際的信息ε之間的互信息(原文公式1)最大化。

如何对复杂系统进行重整化?机器学习可以给你答案|傅渥成

(三)求解過程

好了,到這裡為止,要求解的問題已經被定義清楚了。不過,這個問題的求解卻並不簡單,這是因為“最優的概率分佈”實在是參數太多、太難描述了。為了簡化這一問題,作者們用了限制玻爾茲曼機(RBM)來簡化這一描述。

我們以隱藏層H和可見層V聯合概率分佈為例來介紹,在RBM中,相互作用只存在於H和V之間,隱藏層H內部沒有相互作用,可見層V內部也沒有相互作用[2],這樣,就可以把V和H的聯合分佈寫成一個能量函數的玻爾茲曼因子的形式(原文公式2)。

如何对复杂系统进行重整化?机器学习可以给你答案|傅渥成

在整個問題的求解過程中,我們一共需要面對三個不同的RBM(如圖1b中所示):第一個RBM是用來計算可見層V和環境之間的ε聯合概率分佈的;第二個RBM是用來計算可見層V的概率分佈的,這兩個RBM都用對比散度(contrastive divergence: CD)算法訓練,訓練完成後,這兩個RBM使用的參數被傳到了第三個RBM。而這第三個RBM就是前面提到的、用來計算隱藏層H和可見層V之間概率分佈的RBM,這個RBM也就是作者們所提出的“實空間互信息(RSMI)算法”的核心了。

在優化的過程中,不斷被優化的參數是Λ。我們前面已經提到,參數Λ刻畫的是粗粒化描述的方法,在RBM中,它實際上描述的就是隱藏層H和可見層V之間的耦合(附錄公式一)。

如何对复杂系统进行重整化?机器学习可以给你答案|傅渥成

因為RSMI訓練的目的是希望隱藏層H 跟環境信息ε 的互信息最大化,找到此時最佳的參數Λ,也就找到了將顯層的數據粗粒化的方法,這個方法所找到的,就是重整化群中的適當自由度。因為這個優化的過程是一個最大化問題,因此可以直接採用隨機梯度下降的方法來訓練。

(四)主要結果

作者們首先用二維Ising模型對RSMI算法的有效性進行了驗證。在二維Ising模型的重整化中,最常用的一種粗粒化的方法就是構造“塊自旋”,這一方法最早由Kadanoff提出(如下圖所示)。

如何对复杂系统进行重整化?机器学习可以给你答案|傅渥成

圖2 – 利用Kadanoff自旋塊重整化的示意圖。在將每個2×2方格內的自旋按照“少數服從多數”的原則進行粗粒化,系統在粗粒化後,原有的相互作用強度J也在不斷髮生迭代(J0→ J1→ J2→ ……),這一過程即為重整化。

如何对复杂系统进行重整化?机器学习可以给你答案|傅渥成

圖3 –(a)可見層有4個自旋,隱藏層只有1個自旋時,用RSMI網絡學到的權重與Kadanoff塊自旋的構造方法是一致的。(b)可見層有4個自旋,隱藏層也是4個自旋時,用RSMI網絡學到的權重是每一個隱藏層神經元追蹤一個可見層神經元(原文中圖2)

如何对复杂系统进行重整化?机器学习可以给你答案|傅渥成

圖4 – 二維Ising模型的重整化流,不同顏色的曲線反映的是不同溫度下的重整化。(原文中圖5)

當用RSMI方法來學習Ising模型時,有意思的是,系統自己學出了Kadanoff的塊自旋構造(如圖3所示),利用計算的結果,可以進行重整化(如圖4)所示。根據重整化流計算得到的臨界指數也與實際二維Ising模型一致。

除此以外,作者們還用這一方法對 dimer 模型(如原文中圖3、圖4所示)進行了研究,之所以選擇 dimer模型,原因在於,Ising 模型經過塊重整後、得到的是與自身形式完全相同粗粒化表示,而dimer模型得到的則是完全不同的形式。作者們發現RSMI方法在 dimer 模型的重整化中也能有很好的表現,這說明RSMI方法能在各種場合都能找到合適的重整化操作、提取出適當的自由度。

(五)延伸討論

正如作者們所說,這篇文章所引入的這種方法對於分析很多複雜統計物理體系(例如玻璃體系、無序體系、量子體系等)、提取出這些體系中的適當自由度可能對於解決這些複雜問題起到重要的作用。

這篇文章只是給出了機器學習來解決重整化問題的一種方法,在這篇文章以外,還有很多其他同類型的工作(例如中科院物理所王磊等人的文章 arXiv: 1802.02840)。而在作者們的視野以外,我們還可以對這篇文章所介紹的方法有新的理解。這篇文章基於“互信息”的處理方法與“信息瓶頸(information bottleneck)”的方法有相似之處,只不過作者們在信息的壓縮部分利用了RBM的性質。

另外,如果我們把重整化群看成就是一個機器學習系統,那麼“學習重整化群”某種程度上就是一個“元學習”(Meta Learning / Learningto learn)的問題了。此外,這篇文章的視角也可以幫助我們從信息處理的角度來理解重整化群,相應的框架對於理解像生物對環境的適應等問題也有一定的借鑑意義。

註釋

[1] “Relevance”一詞更常見的翻譯是“關聯/相關”,然而我們在這裡用“適當”一詞來翻譯,主要是為了與“correlation”作區分。

[2] 這是由於引入了“緩衝區”,導致 V內部的關聯被消除了,更多關於緩衝區的討論可以參考原論文附錄。


分享到:


相關文章: