2019-10-21 20:55:26 AI公園

作者：SHUBHAM SINGH
編譯：ronghuaiyang

導讀

給大家解析一下ICLR 2019的最佳論文，非常有創造性的工作！

介紹

我喜歡閱讀和解析機器學習研究論文。有非常多的令人難以置信的信息要解析，這是一個數據科學家的金礦！當無與倫比的ICLR 2019(學習表徵國際會議)會議上公佈了最好的論文時，我非常激動。

我迫不及待地想要得到它們。

然而，大多數的研究論文都很難理解。它們是針對特定的讀者(研究人員)編寫的，因此它們假定讀者具有一定的知識水平。

當我第一次涉獵這些研究論文時，我也面臨著同樣的問題。我費了好大的勁來分析它們，並領會其中的基本技巧是什麼。這就是為什麼我決定幫助數據科學家同事理解這些研究論文。

這些天有非常多的令人難以置信的學術會議，我們需要讓自己跟上機器學習的最新發展。這篇文章是我回饋社區的一種方式，它給與了我很多東西！

在本文中，我們將研究ICLR 2019年會議上的兩篇最佳論文。

ICLR 2019年度最佳論文獎授予：

Ordered Neurons: Integrating Tree Structures Into Recurrent Neural Networks (RNNs)
The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

讓我們來分析這兩篇令人難以置信的論文，並瞭解它們的方法。

Ordered Neurons: Integrating Tree Structures Into Recurrent Neural Networks

下載地址：https://openreview.net/pdf?id=B1l6qiR5F7

自然語言的結構是層次性的。這意味著較大的單位或成分由較小的單位或成分(短語)組成。這個結構通常是樹狀的。

雖然標準的LSTM體系結構允許不同的神經元在不同的時間尺度上跟蹤信息，但它對單元層次結構的建模沒有明顯的偏好。本文提出通過對神經元進行排序來增加這種誘導性的偏好。

這篇文章的目標

研究人員的目標是將樹結構集成到神經網絡語言模型中。這樣做的原因是通過更好的歸納偏好來改進泛化，同時潛在地減少了對大量訓練數據的需求。

過去的State-of-the-Art是什麼？

預測相應的潛在樹結構的一種方法是通過一個有監督的語法分析器。這些解析器生成的樹被用來指導將單詞語義組合成句子語義。這也有助於預測下一個單詞給定的前一個單詞。
然而，受監督的解析器由於以下幾個原因而受到限制：
很少有語言具有用於監督解析器培訓的全面註釋數據
語法規則往往在某些領域被打破(例如在tweets中)
語言會隨著使用的時間而變化，所以語法規則可能會進化
遞歸神經網絡(RNNs)已被證明在語言建模方面非常有效。RNNs顯式地對數據施加一個鏈結構。這種假設似乎與語言潛在的非順序結構不一致。
使用深度學習方法對自然語言數據的處理可能會遇到一些困難，如獲取長期依賴關係、實現良好的泛化、處理否定等問題。同時，有證據表明，具有足夠能力的LSTMs可能通過隱式編碼樹結構來實現語法處理機制。

這篇文章提出的新方法

這就是事情變得非常有趣的地方(對你們這些書呆子來說真的很酷！)

本文提出有序神經元。這是RNN的一種新的誘導偏好，它迫使神經元在不同的時間尺度上表示信息。

這種誘導偏好有助於在長期神經元中存儲長期信息。短期信息(可以很快被遺忘)保存在較低級別的神經元中。

提出了一種新的RNN單元 ON-LSTM。新模型使用了與標準LSTM類似的架構：

不同之處在於，更新細胞狀態ct的函數被替換為一個新的函數cumax()。

由於LSTM中的門獨立作用於每個神經元，因此可能很難辨別神經元之間的信息層次。因此，研究人員提出，通過強制執行神經元更新的順序，使每個神經元的門依賴於其他神經元。

很有趣，對吧？

ON-LSTM包括一個新的門控機制和一個新的激活函數cumax()。將cumax()函數和LSTM組合在一起，在LSTM上創建一個新的模型。這就解釋了為什麼這個模型偏向於執行類似樹的組合操作。

激活函數: cumax()

我想花一些時間討論一下cumax()函數。這是解開本文所介紹的方法的關鍵。

引入這個cumax()激活函數是為了強制更新頻率的順序：

g^= cumax(…)= cumsum(softmax(…))，

這裡，cumsum和表示累積和。g^可以看作是一個二元門的期望，g將cell狀態分成兩段：

0-segment
1-segment

因此，該模型可以對每個段應用不同的更新規則來區分長/短信息。

結構化門機制

本文還介紹了一種新的主忘記門ft和一種新的主輸入門it。這些實體也基於cumax()函數。

根據cumax()函數的性質，主遺忘門中的值從0單調地增加到1。類似的情況也發生在主輸入門中，其中值單調地從1下降到0。

這些門用作單元狀態更新操作的高級控制。我們可以定義一個新的更新規則使用主門：

實驗和結果

研究人員通過四項任務評估了他們的模型：

語言模型
無監督的選區解析
目標句法評價
邏輯推理

以下是最終結果:

橫軸表示序列的長度，縱軸表示模型在相應測試集上性能的準確性

對於不同長度的結構化數據，ON-LSTM模型具有較好的泛化性能。樹結構模型可以在此數據集上實現相當強的性能。

論文的總結

介紹了一種新的RNN誘導偏好有序神經元
在此基礎上，提出了一種新的循環單元on-lstm，它包括一個新的門控機制和一個新的激活函數cumax()
這有助於RNN執行樹狀組合操作，通過分別分配具有長期和短期信息的隱藏狀態神經元。
模型性能表明，ON-LSTM以與人類專家註釋一致的方式誘導自然語言的潛在結構
歸納偏好也使on-lstm能夠在語言建模、長期依賴和邏輯推理任務上取得良好的性能

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

論文下載鏈接：https://openreview.net/pdf?id=rJl-b3RcF7

這是我2019年最喜歡的論文之一。讓我們把它分成易於消化的部分！

剪枝是從神經網絡中去除不必要權重的過程。該過程在不影響精度的前提下，可以將參數計數減少90%以上。它還減少了訓練網絡的規模和能量消耗，使我們的推理更有效。

然而，如果一個網絡的規模可以縮小，為什麼我們不訓練這個更小的架構來提高訓練的效率呢？這是因為修剪所揭示的體系結構從開始的時候很難進行訓練，從而大大降低了準確性。

這篇論文的目標

本文的目的是證明從一開始就存在較小的訓練子網絡。這些網絡在達到類似測試精度的同時，學習速度至少與較大的同類網絡一樣快。

例如，我們從一個全連接的網絡MNIST和卷積網絡CIFAR10隨機抽樣並訓練子網絡：

虛線是迭代的最小驗證在不同稀疏級別上迭代時的測試精度。網絡越稀疏，學習越慢，最終的測試精度越低。

這就是研究人員提出他們的彩票假說的地方。

彩票假說

一個隨機初始化的密集神經網絡包含一個子網絡，標記為中獎彩票網絡。這是初始化的，這樣，當單獨訓練時，它可以在訓練最多相同迭代次數的情況下匹配原始網絡的測試精度。

下面是彩票假說概念的一個極好的例子：

識別出中獎的彩票

我們通過訓練它的網絡和修剪它的最小量級的權重來識別一個彩票。其餘未修剪的連接構成了中獎彩票網絡的體系結構。

然後，在對每個未修剪連接進行訓練之前，將其值從原始網絡重置為初始化值。

實現這一目標的過程涉及到智能訓練和修剪的迭代過程。我將其總結為五個步驟：

隨機初始化一個神經網絡
訓練網絡直到它收斂
進行修剪
要提取中獎彩票網絡，請將網絡其餘部分的權重重置為步驟1中的值

修剪是一次性的，也就是說只修剪一次。

但在這篇論文中，研究人員關注的是迭代剪枝，它反覆訓練、修剪和重置網絡。每一輪刪除前一輪剩餘權重的p^(1/n) %。

因此，與一次性剪枝相比，這種迭代剪枝可以在較小的規模下找到與原始網絡的精度匹配的中獎彩票網絡。

應用

在閱讀這些研究論文時，每個人都會想到一個問題—我們究竟能把它應用到哪裡？這一切都很好，很好的實驗和提出一個新的方法。但最重要的是將其轉換為實際應用。

這篇論文對計算中獎彩票網絡非常有用。彩票假設可以應用於MNIST訓練的全連接網絡和CIFAR10上的卷積網絡，增加了學習問題的複雜性和網絡的規模。

現有的神經網絡剪枝研究表明，神經網絡學習的函數通常可以用較少的參數表示。修剪通常通過訓練原始網絡、刪除連接和進一步微調來進行。

實際上，初始訓練初始化修剪後的網絡的權重，以便在微調期間它可以獨立地學習。

中獎彩票網絡初始化的重要性

當隨機重新初始化中獎彩票網絡時，中獎彩票網絡的學習速度較慢，並且獲得較低的測試精度。這表明初始化對它的成功非常重要。

中獎彩票網絡結構的重要性

產生中獎彩票網絡的初始化安排在特定的稀疏體系結構中。由於我們通過大量使用訓練數據來發現中獎彩票網絡，我們假設中獎彩票網絡的結構編碼了一種針對當前學習任務的歸納偏好。

侷限性以及未來的工作

研究人員意識到這還不是最終產品。目前的辦法有一些限制，今後可以加以解決：

沒有研究較大的數據集。只考慮較小數據集中以視覺為中心的分類任務。
這些研究人員打算探索更有效的方法來找到中獎彩票網絡，這將使在更資源密集的環境中研究彩票網絡假說成為可能
稀疏剪枝是我們找到中獎彩票網絡網絡的唯一方法。
研究人員打算從廣泛的當代文獻中研究其他剪枝方法，如結構化剪枝(可生成針對當代硬件優化的網絡)和非規模剪枝方法(可生成更小的中獎彩票網絡或更早發現它們)
中獎彩票網絡進行初始化之後才能得到和沒有剪枝的網絡匹配的性能，需要考慮在規模太小的未經修剪的網絡隨機初始化網絡做同樣的事情。
研究人員打算研究這些初始化的特性，這些特性與修剪後的網絡架構的歸納偏好相一致，使得這些網絡更加擅長學習

結束語

在本文中，我們詳細討論了ICLR中發表的兩篇最佳研究論文。通過閱讀這些論文，瞭解這些研究專家的思維過程，我學到了很多。我鼓勵你讀完這篇文章後自己把這些論文看一遍。

不久還會有更多以研究為重點的會議。國際機器學習會議(ICML)和計算機視覺和模式識別(CVPR)會議將在未來幾個月舉行。請繼續關注！

英文原文：https://medium.com/recombee-blog/machine-learning-for-recommender-systems-part-2-deep-recommendation-sequence-prediction-automl-f134bc79d66b

分享到:

閱讀更多 AI公園 的文章

關鍵字: 深度學習解析制霸

ICLR 2019最佳論文解析：神經網絡制霸

導讀

相關文章:

ICLR 2019最佳論文解析：神經網絡制霸

導讀

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

老子在《道德經》中是否有提到過他對學習的態度呢，如何評價？

想做好事，一想到《道德經》中的那一句“天地不仁，以萬物為芻狗”或“大善既是大惡”，心理障礙了求解？

思想和理論哪個重要？

打工應該怎麼選行業？

哥是一個窮光蛋，怎麼才能找到老婆呢？

30歲的女人學什麼舞蹈好？

跳鬼步舞的魅力有哪些？為何能成為大多數人的健身運動？

一些家庭的丈夫收入全部上繳，只留可憐的一點零花錢是真的嗎，你怎麼看？

很多朋友最近都離開了杭州，你離開杭州的原因是什麼？

如何看待杭州即將開通的地鐵5號線？

"色難"與"不孝有三，無後為大"兩種論調，現代人應尊崇哪種？

婆婆給我帶孩子，一個4歲一個6歲，每個月我給她500塊錢多不多？

有些母嬰店打著廠家做活動的旗號，要小孩的出生證明原件拍照送奶粉，大家對這種做法怎麼看？

你是怎麼看待賣保險的女人？

弱弱問一句：全國都在開網課，是不是現在講的以後課堂就不用講了？

這才一個月沒做生意老闆們就喊窮了？請問以前賺的錢呢？

請高人解答，“反者道之動，弱者道之用”如何理解？

我說：“我若活著，世界便存在，我若無存，世界即消失”，你覺得呢？

很少發朋友圈的人，真的是因為生活很幸福嗎？

一個男孩子總是發消息給一個女孩子，但女孩子不理他。請問還要繼續交流嗎？

一個姑娘的男朋友考上大學，姑娘打工供他，但打條了，說“畢業了不要甩我”，打條有法律效益嗎？

班級的家長微信群中有一個家長言論比較過激，懟老師和其他家長，影響和諧，如何處理？

最近很迷茫也很無助，天天加班工資還是一樣，想辭職又不知道自己會什麼，如何調整心態？

“沒有本事時，就少談公平，強大的人覺得世界很公平”，對此你怎麼看？

學校不好的心理學研究生能找到工作嗎？

關於一些年輕人進廠你有什麼看法？前途怎麼樣？

最近劇荒了，有沒有什麼有趣好看的電影，電視劇，或者是看的很爽的那種特效大片？

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪