神經正切,5行代碼打造無限寬的神經網絡模型

本文是對 ICLR 2020 論文《NEURAL TANGENTS: FAST AND EASY INFINITE NEURAL NETWORKS IN PYTHON》的解讀,作者來自谷歌。

ICLR 2020 |  神经正切,5行代码打造无限宽的神经网络模型
  • 論文地址:https://arxiv.org/pdf/1912.02803.pdf

  • 開源地址:https://github.com/google/neural-tangents

深度學習在自然語言處理,對話智能體和連接組學等多個領域都獲得了成功應用,這種學習方式已經改變了機器學習的研究格局,並給研究人員帶來了許多有趣而重要的開放性問題,例如:為什麼深度神經網絡(DNN)在被過度參數化的情況下仍能如此良好地泛化? 深度網絡的體系結構、訓練和性能之間的關係是什麼? 如何從深度學習模型中提取顯著特徵?

近年來,該領域取得進展的一個關鍵理論觀點是:增加 DNN 的寬度會帶來更有規律的行為,並使這些行為更易於理解。最近的許多結果表明,能夠變得無限寬的DNN聚合到另一種更簡單的模型類別上的過程,稱為高斯過程。

在這一限制下,複雜的現象(如貝葉斯推理或卷積神經網絡的梯度下降動力學)可以歸結為簡單的線性代數方程。這些無限寬網絡的一些思路,也被頻繁地擴展到有限的網絡上。 因此,無限寬網絡不僅可以用作研究深度學習的維度,其本身也是非常有用的模型。

ICLR 2020 |  神经正切,5行代码打造无限宽的神经网络模型

左圖:示意圖顯示了深度神經網絡在無限寬的情況下如何產生簡單的輸入/輸出映射。

右圖:隨著神經網絡寬度的增加,我們看到網絡在不同的隨機實例上的輸出分佈變為高斯分佈。

不幸的是,推導有限網絡的無限寬度限制需要大量的數學知識,並且必須針對研究的每種體系結構分別進行計算。一旦無限寬的模型被推導出來,想進一步提出一個有效的和可擴展的實現還需要很高的工程能力。總之,將有限寬的模型轉換成相應的無限寬網絡的過程可能需要幾個月的時間,並且可能它本身就是研究論文的主題。

為了解決這個問題,並加速深度學習的理論進展,谷歌研究者提出了一種新的開源軟件庫“神經正切”(Neural Tangents),允許研究人員像訓練有限寬的神經網絡一樣容易地構建和訓練無限寬的神經網絡。其核心是:神經正切提供了一個易於使用的神經網絡庫,可以同時構建有限和無限寬的神經網絡。

先舉個神經切線的應用示例,想象一下在某些數據上訓練一個完全連接的神經網絡。 通常,神經網絡是隨機初始化的,然後使用梯度下降進行訓練。對這些神經網絡進行初始化和訓練可以得到一個集成網絡。

研究人員和從業人員通常會把集成的不同部分的預測情況平均,以獲得更好的表現。另外,可以從集成的不同部分預測的方差中估計其不確定性。這種方法的缺點是,訓練一個網絡集成需要大量的計算預算,因此很少使用這種方法。但是,當神經網絡變得無限寬時,通過高斯過程描述該集成,它的均值和方差在整個訓練過程中便能被計算出來。

使用神經正切,只需五行代碼就可以構造和訓練這些無限寬網絡集成! 訓練過程如下所示,可以前往以下地址使用進行此實驗的交互式協作notebook :

https://colab.sandbox.google.com/github/google/neural-tangents/blob/master/notebooks/neural_tangents_cookbook.ipynb

在這兩個圖中,作者將有限神經網絡集成的訓練與相同結構的無限寬度集成進行了比較。前者的經驗均值和方差用兩條淺黑色虛線之間的黑色虛線表示;後者的閉合形式的均值和方差由填充顏色區域內的彩色線表示。在這兩個圖中,有限寬和無限寬的網絡集成非常接近,乃至於難以區分。 左:隨著訓練的進行,在輸入數據(水平x軸)上輸出(垂直f軸)。 右圖:訓練過程中由於不確定因素而導致的訓練和測試損失。

儘管無限寬網絡集成是由一個簡單的閉式表達控制的,但它與有限寬網絡集成有顯著的一致性。而且由於無限寬網絡集成是一個高斯過程,它自然提供了閉合形式的不確定性估計(上圖中的彩色區域)。這些不確定性估計與預測變化非常匹配:訓練有限寬網絡的大量不同的副本時觀察到的結果(虛線)。

上述示例顯示了無限寬神經網絡在捕捉訓練動態方面的能力。 然而,使用神經正切構建的網絡可以應用於任何問題,即可以應用一個常規的神經網絡來解決這些問題。

例如,下面將使用CIFAR-10數據集來比較圖像識別上的三種不同的無限寬神經網絡架構。 值得注意的是,谷歌研究者可以在梯度下降和全貝葉斯推理(有限寬網絡機制中的一項艱鉅任務)下,對高度複雜的模型進行評估,例如閉合形式的無限寬殘差網絡。

ICLR 2020 |  神经正切,5行代码打造无限宽的神经网络模型

我們可以看到,無限寬網絡模仿有限寬神經網絡,其性能等級與性能比卷積網絡更差的全連接網絡相似,而卷積網絡的性能又比寬殘差網絡差。

然而,與常規訓練不同的是,這些模型的學習動態是完全可以在閉合形式下進行處理的,這使研究者們對這些模型的行為有了前所未有的瞭解。 雷鋒網雷鋒網雷鋒網

via https://ai.googleblog.com/2020/03/fast-and-easy-infinitely-wide-networks.html


分享到:


相關文章: