ICLR 2019最佳論文解析:神經網絡制霸

作者:SHUBHAM SINGH
編譯:ronghuaiyang

導讀

給大家解析一下ICLR 2019的最佳論文,非常有創造性的工作!

介紹

我喜歡閱讀和解析機器學習研究論文。有非常多的令人難以置信的信息要解析,這是一個數據科學家的金礦!當無與倫比的ICLR 2019(學習表徵國際會議)會議上公佈了最好的論文時,我非常激動。

我迫不及待地想要得到它們。

然而,大多數的研究論文都很難理解。它們是針對特定的讀者(研究人員)編寫的,因此它們假定讀者具有一定的知識水平。

ICLR 2019最佳論文解析:神經網絡制霸

當我第一次涉獵這些研究論文時,我也面臨著同樣的問題。我費了好大的勁來分析它們,並領會其中的基本技巧是什麼。這就是為什麼我決定幫助數據科學家同事理解這些研究論文。

這些天有非常多的令人難以置信的學術會議,我們需要讓自己跟上機器學習的最新發展。這篇文章是我回饋社區的一種方式,它給與了我很多東西!

在本文中,我們將研究ICLR 2019年會議上的兩篇最佳論文。

ICLR 2019年度最佳論文獎授予:

  • Ordered Neurons: Integrating Tree Structures Into Recurrent Neural Networks (RNNs)
  • The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

讓我們來分析這兩篇令人難以置信的論文,並瞭解它們的方法。

Ordered Neurons: Integrating Tree Structures Into Recurrent Neural Networks

下載地址:https://openreview.net/pdf?id=B1l6qiR5F7

自然語言的結構是層次性的。這意味著較大的單位或成分由較小的單位或成分(短語)組成。這個結構通常是樹狀的。

雖然標準的LSTM體系結構允許不同的神經元在不同的時間尺度上跟蹤信息,但它對單元層次結構的建模沒有明顯的偏好。本文提出通過對神經元進行排序來增加這種誘導性的偏好。

這篇文章的目標

研究人員的目標是將樹結構集成到神經網絡語言模型中。這樣做的原因是通過更好的歸納偏好來改進泛化,同時潛在地減少了對大量訓練數據的需求。

過去的State-of-the-Art是什麼?

  • 預測相應的潛在樹結構的一種方法是通過一個有監督的語法分析器。這些解析器生成的樹被用來指導將單詞語義組合成句子語義。這也有助於預測下一個單詞給定的前一個單詞。
  • 然而,受監督的解析器由於以下幾個原因而受到限制:
  • 很少有語言具有用於監督解析器培訓的全面註釋數據
  • 語法規則往往在某些領域被打破(例如在tweets中)
  • 語言會隨著使用的時間而變化,所以語法規則可能會進化
  • 遞歸神經網絡(RNNs)已被證明在語言建模方面非常有效。RNNs顯式地對數據施加一個鏈結構。這種假設似乎與語言潛在的非順序結構不一致。
  • 使用深度學習方法對自然語言數據的處理可能會遇到一些困難,如獲取長期依賴關係、實現良好的泛化、處理否定等問題。同時,有證據表明,具有足夠能力的LSTMs可能通過隱式編碼樹結構來實現語法處理機制。

這篇文章提出的新方法

這就是事情變得非常有趣的地方(對你們這些書呆子來說真的很酷!)

本文提出有序神經元。這是RNN的一種新的誘導偏好,它迫使神經元在不同的時間尺度上表示信息。

這種誘導偏好有助於在長期神經元中存儲長期信息。短期信息(可以很快被遺忘)保存在較低級別的神經元中。

提出了一種新的RNN單元 ON-LSTM。新模型使用了與標準LSTM類似的架構:

ICLR 2019最佳論文解析:神經網絡制霸

不同之處在於,更新細胞狀態ct的函數被替換為一個新的函數cumax()。

由於LSTM中的門獨立作用於每個神經元,因此可能很難辨別神經元之間的信息層次。因此,研究人員提出,通過強制執行神經元更新的順序,使每個神經元的門依賴於其他神經元。

很有趣,對吧?

ON-LSTM包括一個新的門控機制和一個新的激活函數cumax()。將cumax()函數和LSTM組合在一起,在LSTM上創建一個新的模型。這就解釋了為什麼這個模型偏向於執行類似樹的組合操作。

激活函數: cumax()

我想花一些時間討論一下cumax()函數。這是解開本文所介紹的方法的關鍵。

引入這個cumax()激活函數是為了強制更新頻率的順序:

g^= cumax(…)= cumsum(softmax(…)),

這裡,cumsum和表示累積和。g^可以看作是一個二元門的期望,g將cell狀態分成兩段:

  • 0-segment
  • 1-segment

因此,該模型可以對每個段應用不同的更新規則來區分長/短信息。

結構化門機制

本文還介紹了一種新的主忘記門ft和一種新的主輸入門it。這些實體也基於cumax()函數。

根據cumax()函數的性質,主遺忘門中的值從0單調地增加到1。類似的情況也發生在主輸入門中,其中值單調地從1下降到0。

這些門用作單元狀態更新操作的高級控制。我們可以定義一個新的更新規則使用主門:

ICLR 2019最佳論文解析:神經網絡制霸

實驗和結果

研究人員通過四項任務評估了他們的模型:

  • 語言模型
  • 無監督的選區解析
  • 目標句法評價
  • 邏輯推理

以下是最終結果:

ICLR 2019最佳論文解析:神經網絡制霸

橫軸表示序列的長度,縱軸表示模型在相應測試集上性能的準確性

對於不同長度的結構化數據,ON-LSTM模型具有較好的泛化性能。樹結構模型可以在此數據集上實現相當強的性能。

論文的總結

  • 介紹了一種新的RNN誘導偏好有序神經元
  • 在此基礎上,提出了一種新的循環單元on-lstm,它包括一個新的門控機制和一個新的激活函數cumax()
  • 這有助於RNN執行樹狀組合操作,通過分別分配具有長期和短期信息的隱藏狀態神經元。
  • 模型性能表明,ON-LSTM以與人類專家註釋一致的方式誘導自然語言的潛在結構
  • 歸納偏好也使on-lstm能夠在語言建模、長期依賴和邏輯推理任務上取得良好的性能

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

論文下載鏈接:https://openreview.net/pdf?id=rJl-b3RcF7

這是我2019年最喜歡的論文之一。讓我們把它分成易於消化的部分!

剪枝是從神經網絡中去除不必要權重的過程。該過程在不影響精度的前提下,可以將參數計數減少90%以上。它還減少了訓練網絡的規模和能量消耗,使我們的推理更有效。

然而,如果一個網絡的規模可以縮小,為什麼我們不訓練這個更小的架構來提高訓練的效率呢?這是因為修剪所揭示的體系結構從開始的時候很難進行訓練,從而大大降低了準確性。

這篇論文的目標

本文的目的是證明從一開始就存在較小的訓練子網絡。這些網絡在達到類似測試精度的同時,學習速度至少與較大的同類網絡一樣快。

例如,我們從一個全連接的網絡MNIST和卷積網絡CIFAR10隨機抽樣並訓練子網絡:

ICLR 2019最佳論文解析:神經網絡制霸

虛線是迭代的最小驗證在不同稀疏級別上迭代時的測試精度。網絡越稀疏,學習越慢,最終的測試精度越低。

這就是研究人員提出他們的彩票假說的地方。

彩票假說

一個隨機初始化的密集神經網絡包含一個子網絡,標記為中獎彩票網絡。這是初始化的,這樣,當單獨訓練時,它可以在訓練最多相同迭代次數的情況下匹配原始網絡的測試精度。

下面是彩票假說概念的一個極好的例子:

ICLR 2019最佳論文解析:神經網絡制霸

識別出中獎的彩票

我們通過訓練它的網絡和修剪它的最小量級的權重來識別一個彩票。其餘未修剪的連接構成了中獎彩票網絡的體系結構。

然後,在對每個未修剪連接進行訓練之前,將其值從原始網絡重置為初始化值。

實現這一目標的過程涉及到智能訓練和修剪的迭代過程。我將其總結為五個步驟:

  1. 隨機初始化一個神經網絡
  2. 訓練網絡直到它收斂
  3. 進行修剪
  4. 要提取中獎彩票網絡,請將網絡其餘部分的權重重置為步驟1中的值

修剪是一次性的,也就是說只修剪一次。

但在這篇論文中,研究人員關注的是迭代剪枝,它反覆訓練、修剪和重置網絡。每一輪刪除前一輪剩餘權重的p^(1/n) %。

因此,與一次性剪枝相比,這種迭代剪枝可以在較小的規模下找到與原始網絡的精度匹配的中獎彩票網絡。

應用

在閱讀這些研究論文時,每個人都會想到一個問題—我們究竟能把它應用到哪裡?這一切都很好,很好的實驗和提出一個新的方法。但最重要的是將其轉換為實際應用。

這篇論文對計算中獎彩票網絡非常有用。彩票假設可以應用於MNIST訓練的全連接網絡和CIFAR10上的卷積網絡,增加了學習問題的複雜性和網絡的規模。

現有的神經網絡剪枝研究表明,神經網絡學習的函數通常可以用較少的參數表示。修剪通常通過訓練原始網絡、刪除連接和進一步微調來進行。

實際上,初始訓練初始化修剪後的網絡的權重,以便在微調期間它可以獨立地學習。

中獎彩票網絡初始化的重要性

當隨機重新初始化中獎彩票網絡時,中獎彩票網絡的學習速度較慢,並且獲得較低的測試精度。這表明初始化對它的成功非常重要。

中獎彩票網絡結構的重要性

產生中獎彩票網絡的初始化安排在特定的稀疏體系結構中。由於我們通過大量使用訓練數據來發現中獎彩票網絡,我們假設中獎彩票網絡的結構編碼了一種針對當前學習任務的歸納偏好。

侷限性以及未來的工作

研究人員意識到這還不是最終產品。目前的辦法有一些限制,今後可以加以解決:

  • 沒有研究較大的數據集。只考慮較小數據集中以視覺為中心的分類任務。
  • 這些研究人員打算探索更有效的方法來找到中獎彩票網絡,這將使在更資源密集的環境中研究彩票網絡假說成為可能
  • 稀疏剪枝是我們找到中獎彩票網絡網絡的唯一方法。
  • 研究人員打算從廣泛的當代文獻中研究其他剪枝方法,如結構化剪枝(可生成針對當代硬件優化的網絡)和非規模剪枝方法(可生成更小的中獎彩票網絡或更早發現它們)
  • 中獎彩票網絡進行初始化之後才能得到和沒有剪枝的網絡匹配的性能,需要考慮在規模太小的未經修剪的網絡隨機初始化網絡做同樣的事情。
  • 研究人員打算研究這些初始化的特性,這些特性與修剪後的網絡架構的歸納偏好相一致,使得這些網絡更加擅長學習

結束語

在本文中,我們詳細討論了ICLR中發表的兩篇最佳研究論文。通過閱讀這些論文,瞭解這些研究專家的思維過程,我學到了很多。我鼓勵你讀完這篇文章後自己把這些論文看一遍。

不久還會有更多以研究為重點的會議。國際機器學習會議(ICML)和計算機視覺和模式識別(CVPR)會議將在未來幾個月舉行。請繼續關注!

英文原文:https://medium.com/recombee-blog/machine-learning-for-recommender-systems-part-2-deep-recommendation-sequence-prediction-automl-f134bc79d66b

ICLR 2019最佳論文解析:神經網絡制霸
"


分享到:


相關文章: