引入額外門控運算,LSTM稍做修改,性能便堪比Transformer-XL

引入額外門控運算,LSTM稍做修改,性能便堪比Transformer-XL

作者 | 幻風

AAAI 2020 已經於 2月 7日 - 12 日在紐約舉辦,對於 AI 領域的研究者來講,接下來最近的一個盛會將是4月26日在非洲埃塞俄比亞(亞斯亞貝巴)舉辦的 ICLR 2020。

引入额外门控运算,LSTM稍做修改,性能便堪比Transformer-XL

ICLR會議是由深度學習三巨頭之二的 Yoshua Bengio 和 Yann LeCun 牽頭於2013年創辦,旨在關注有關深度學習各個方面的前沿研究。儘管ICLR 2020也不過是第九屆會議,但這個會議卻已經成為業界人士心目中的頂級會議。特別是在前段時間清華髮布的新版AI頂會評級中,ICLR更是被評為A級會議。

本屆ICLR 會議共共有 2594篇投稿,其中 687篇論文被接收,接收率為26.5%。本文為DeepMind和劍橋大學研究人員聯合發表在ICLR 2020上的 Oral 論文,該論文在OpenReview網站上的評分為 6-8-8。

作者對該論文的介紹為:

An LSTM extension with state-of-the-art language modelling results.
一個LSTM 擴展,能夠取得 SOTA 語言模型結果。引入额外门控运算,LSTM稍做修改,性能便堪比Transformer-XL

論文地址:https://arxiv.org/pdf/1909.01792.pdf

代碼復現:https://github.com/deepmind/lamb

先進的神經網絡模型的應用是自然語言理解(Natural Language Processing)的眾多任務取得先進性進展的根本原因。但是現有的神經網絡模型仍然不完美,比如存在泛化能力和語言建模能力不強等諸多問題。

針對這個問題,本論文對在自然語言理解中最常使用的神經網絡模型 Long Short-Term Memory(LSTM)進行了改進,提出了形變的LSTM,通過引入額外的門控運算,使得輸入x和狀態hprw在輸入到LSTM之前進行多輪交互計算,最終使得輸入和上下文之間具有更加豐富的交互表示。這種改進並不複雜,但是這種簡單的修改確在語言模型上取得了顯著的效果。

研究意義

LSTM來源於循環神經網絡RNN,其核心是解決了RNN所存在的遺忘性問題。

所以LSTM在普通RNN基礎上,在隱藏層各神經單元中增加記憶單元,從而使時間序列上的記憶信息可控,每次在隱藏層各單元間傳遞時通過幾個可控門(遺忘門、輸入門、輸出門),可以控制之前信息和當前信息的記憶和遺忘程度,從而使RNN網絡具備了長期記憶功能,對於RNN的實際應用,有巨大作用。

LSTM已經成為了眾多NLP任務的標配,甚至成為了現在主流的序列到序列模型的基礎性組件,所以在LSTM中加以創新是非常有意義的。

主要思路

如圖1所示,我們可以看到輸入xt和狀態ht是獨立的輸入到LSTM中。

引入额外门控运算,LSTM稍做修改,性能便堪比Transformer-XL

圖1 LSTM

作者認為這會帶來一些問題,由於輸入x和狀態ht它們只在LSTM內部進行交互,在這之前缺乏交互,這可能會導致上下文信息的丟失。為此,本論文提出Mogrifier LSTM,不改變LSTM本身的結構,而是讓輸入和狀態首先進行交互,然後通過這種方式增強模型的上下文建模能力。

引入额外门控运算,LSTM稍做修改,性能便堪比Transformer-XL

圖 2

如上述公式所示,我們可以看到原始的LSTM的計算步驟,其中f是遺忘門用來控制前一個時刻的記憶Cprev保留多少記憶;i是輸入門,用來控制當前的信息j應輸入多少;o是輸出門(output),用來控制當前記憶單元應該輸出多少。

本文並沒有改變如圖2所示的計算過程,也就是說並沒有改變LSTM的原始結構。它將輸入到LSTM中的x和hprev改變了,具體過程如圖 3 所示。

引入额外门控运算,LSTM稍做修改,性能便堪比Transformer-XL

圖 3

如圖3 所示,我們可以看到當x和h輸入到LSTM之前進行了多輪的交互計算,其中x-1就是x,而h0就是hprev,它們經過的交互輪數記為r,r是一個超參數,當r=0的時候,相當於x和hprev直接輸入到LSTM中,此時相當於原始的LSTM計算。將這個計算過程通過數學方式表示:

引入额外门控运算,LSTM稍做修改,性能便堪比Transformer-XL引入额外门控运算,LSTM稍做修改,性能便堪比Transformer-XL

圖 4

如公式所示,先根據公式(1),通過x-1和h0計算得到x1,然後根據公式(2),通過x1和h0計算得到h2,經過多輪迭代交互,最終得到融合x和h信息的h4和x5,然後將其作為輸入,輸入到LSTM中,進行如圖2所示的計算。

圖 4 所示的x和h的交互計算過程就是本篇論文的核心創新點,作者認為通過這種交互是計算可以增強輸入和上下文之間的信息表示,但是這是作者的猜測,因為很多深度學習模型目前還不具備可解釋性,但是從實驗角度可以看出,通過這種方式構建的新型LSTM模型確實比原始的LSTM效果要好。下面通過實驗看一下,改進的LSTM效果如何?

實驗

本論文使用的數據集分為兩類,一類是字級別的數據集,另外一類是詞級別的數據集。其中字級別的數據集有Enwik8、PTB和MWC,而詞級別的數據集有:PTB和Wikitext-2。下面看一下在這些數據集上的改進LSTM的表現。

引入额外门控运算,LSTM稍做修改,性能便堪比Transformer-XL

圖5參數解釋:dn表示神經網絡有多少層。MoS是混合softmax。MC是蒙託卡羅隨機失活。

如圖5所示,改進的LSTM在詞級別的實驗效果全面超越了原始的LSTM模型,可以證明改進之後的LSTM是具有意義的,但是它並沒有超過當前主流的Transformer-XL。

如圖6所示,改進的LSTM在字級別上的實驗結果。可以看到,改進的LSTM比原始的 LSTM都要好,但是仍然比Transformer-XL差。

引入额外门控运算,LSTM稍做修改,性能便堪比Transformer-XL

圖6

之後該文的作者針對於改進的模型又做了幾個小實驗,第一個實驗是判斷交互輪數r對模型的影響,如圖7所示。

引入额外门控运算,LSTM稍做修改,性能便堪比Transformer-XL

圖7

如圖7所示,我們可以看到當交互輪數的增多,模型的效果越來越好,而在輪數r=4的時候模型效果達到最佳水平。

引入额外门控运算,LSTM稍做修改,性能便堪比Transformer-XL

圖8

之後作者又將如圖3所示的模型進行改進,使得每個門計算都依賴最初的x和h。這個方法叫做no zigzag,如圖8所示。為了降低模型的複雜度,將Qi和Ri矩陣分解為低秩的矩陣的乘積,這個叫做Full rank,將其與原始的LSTM、改進的LSTM、mLSTM進行比較,實現效果如圖9所示。

引入额外门控运算,LSTM稍做修改,性能便堪比Transformer-XL

圖9

通過如圖9所示的實驗結果,可以看到Mogrifier中對Full rank、no zigzag、mLSTM(Multiplicative LSTM)的比較。可以看到,Full rank效果提升不大,而no zigzag有較大的提升。

之後作者又進行了逆複述任務,具體來說就是模型首先讀一段文本,在收到一個特定字符後,再倒著輸出該文本。通過這種方式可以檢測模型是否很好的融合了上下文的信息表示,因為只有更好的學習上下文,才可以更好的完成逆複述任務。本論文將改進LSTM和LSTM模型進行了比較,實驗結果如圖10所示。

引入额外门控运算,LSTM稍做修改,性能便堪比Transformer-XL

圖10

如圖10所示,可以看到對長度小於100的句子而言,二者都表現得很好,但隨著文本長度的增加,Mogrifer逐漸能和LSTM拉開差距,尤其是在字典很大(10K)的時候。通過實驗結果,我們可以得到一個結論:改進的LSTM可以顯著的增強上下文的信息,將輸入信息更好的融入到模型中。

總結

本論文的核心就是如圖3所示的改進,作者為了證明改進的LSTM可以取得較好的效果,做了諸多的實驗,作者認為能夠取得較好效果的主要原因是因為使用這種方式可以顯著增強上下文的信息表示,這也是原始的LSTM模型所存在的問題。但是這只是作者通過實驗的猜測,這也是深度學習的侷限性,不具備可解釋性,所以作者做了諸多的假設。

個人的感悟:目前改進的RNN網絡有多達上千種,比較有名是LSTM和GRU。本文將LSTM進行了改進,那麼同理是否可以對GRU進行類似的改進,或者改進如圖3所示的計算過程,使用新的計算方式或者引入注意力機制,通過注意力機制有選擇的過濾一些次要特徵,從而使主要特徵更加顯著。這也證明了我長期的一個觀念,融合更多的信息到神經網絡中,模型的集成度越高,神經網絡的效果可能會越好,我覺得任何的模型都可以朝著這個方向進行輕微的改進,也許可以取得不錯的效果。

ICLR 2020 系列論文解讀:

1、論文集

火爆的圖機器學習,ICLR 2020上有哪些研究趨勢?

1、Oral

01. 一種鏡像生成式機器翻譯模型:MGNMT

02. 額外高斯先驗目標,緩解負多樣性無知

2、Spotlight

01. Spotlight | 模型參數這麼多,泛化能力為什麼還能這麼強?

02. Spotlight | 公平與精確同樣重要!CMU提出學習公平表徵方法,實現算法公平

03. Spotlight | 組合泛化能力太差?用深度學習融合組合求解器試試

04. Spotlight | 加速NAS,僅用0.1秒完成搜索

3、Poster

Poster | 華為諾亞:巧妙思想,NAS與「對抗」結合,速率提高11倍

引入额外门控运算,LSTM稍做修改,性能便堪比Transformer-XL


分享到:


相關文章: