LSTM 為何如此有效？這五個祕密是你要知道的

2020-04-04 17:23:36 雷鋒網

圖片來源佩吉·喬卡爾

長短期記憶網絡（LSTM），作為一種改進之後的循環神經網絡，不僅能夠解決 RNN無法處理長距離的依賴的問題，還能夠解決神經網絡中常見的梯度爆炸或梯度消失等問題，在處理序列數據方面非常有效。

有效背後的根本原因有哪些？本文結合簡單的案例，帶大家瞭解關於 LSTM 的五個秘密，也解釋了 LSTM如此有效的關鍵所在。

秘密一：發明LSTM是因為RNN 發生嚴重的內存洩漏

之前，我們介紹了遞歸神經網絡（RNN），並演示瞭如何將它們用於情感分析。

RNN 的問題是遠程內存。例如，它們能夠預測出“the clouds are in the…”這句話的下一個單詞“sky”，但卻無法預測出下面這句話中缺失的單詞：“她在法國長大。現在到中國才幾個月。她說一口流利的 …”（“She grew up in France. Now she has been in China for few months only. She speaks fluent …”）

隨著間隔的拉長，RNN變得無法學會信息連接。在此示例中，最近的信息表明，下一個詞可能是一種語言的名稱，但是如果我們想縮小哪種語言的範圍，那麼就需要到間隔很長的前文中去找“法國”。在自然語言文本中，這種問題，完全有可能在相關信息和需要該信息的地方出現很大的差異。這種差異在德語中也很常見。

圖片來自FB Engineering Tejas Patil的博客上

為什麼RNN在長序列文本方面存在巨大的問題？根據設計，RNN 在每個時間步長上都會接受兩個輸入：一個輸入向量（例如，輸入句子中的一個詞）和一個隱藏狀態（例如，以前詞中的記憶表示）。

RNN下一個時間步長採用第二個輸入向量和第一隱藏狀態來創建該時間步長的輸出。因此，為了捕獲長序列中的語義，我們需要在多個時間步長上運行RNN，將展開的RNN變成一個非常深的網絡。

閱讀參考：https://towardsdatascience.com/recurrent-neural-networks-explained-ffb9f94c5e09

長序列並不是RNN的唯一麻煩製造者。就像任何非常深的神經網絡一樣，RNN也存在梯度消失和爆炸的問題，因此需要花費大量時間進行訓練。人們已經提出了許多技術來緩解此問題，但還無法完全消除該問題，這些技術包括：

仔細地初始化參數
使用非飽和激活函數，如ReLU
應用批量歸一化、梯度消失、捨棄網絡細胞等方法
使用經過時間截斷的反向傳播

這些方法仍然有其侷限性。此外，除了訓練時間長之外，長期運行的RNN還面臨另一個問題是：對首個輸入的記憶會逐漸消失。

一段時間後，RNN的狀態庫中幾乎沒有首個輸入的任何痕跡。例如，如果我們想對以“我喜歡這款產品”開頭的長評論進行情感分析，但其餘評論列出了許多可能使該產品變得更好的因素，那麼 RNN 將逐漸忘記首個評論中傳遞的正面情緒，並且會完全誤認為該評論是負面的。

為了解決RNN的這些問題，研究者已經在研究中引入了各類具有長期記憶的細胞。實際上，不再使用基本的RNN的大多數工作是通過所謂的長短期記憶網絡（LSTM）完成的。 LSTM是由S. Hochreiter和J. Schmidhuber發明的。

秘密2 ： LSTM的一個關鍵思想是“門”。

每個LSTM細胞都控制著要記住的內容、要忘記的內容以及如何使用門來更新存儲器。這樣，LSTM網絡解決了梯度爆炸或梯度消失的問題，以及前面提到的所有其他問題！

LSTM細胞的架構如下圖所示：

來源：哈佛大學 P. Protopapas教授的課堂講稿

h 是隱藏狀態，表示的是短期記憶； C是細胞狀態，表示的是長期記憶；x表示輸入。

門只能執行很少的矩陣轉換，激活 sigmoid函數和tanh函數可以神奇地解決所有RNN問題。

在下一節中，我們將通過觀察這些細胞如何遺忘、記憶和更新其內存來深入研究這一過程。

一個有趣的故事：

讓我們設置一個有趣的情節來探索這個圖表。假設你是老闆，你的員工要求加薪。你會同意嗎？這取決於多個因素，比如你當時的心情。

下面我們將你的大腦視為LSTM細胞，當然我們無意冒犯你聰明的大腦。

來源：哈佛大學 P. Protopapas教授的課堂講稿

你的長期狀態C將影響你的決定。平均來說，你有70%的時間心情很好，而你還剩下30%的預算。因此你的細胞狀態是C=[0.7， 0.3]。

最近，所有的事情對你來說都很順利，100%地提升了你的好心情，而你有100%的可能性預留可操作的預算。這就把你的隱藏狀態變成了h=[1，1]。

今天，發生了三件事：你的孩子在學校考試中取得了好成績，儘管你的老闆對你的評價很差，但是你發現你仍然有足夠的時間來完成工作。因此，今天的輸入是x=[1， - 1，1]。

基於這個評估，你會給你的員工加薪嗎?

秘密3：LSTM通過使用“忘記門”來忘記

在上述情況下，你的第一步可能是弄清楚今天發生的事情（輸入x）和最近發生的事情（隱藏狀態h），二者會影響你對情況的長期判斷（細胞狀態C）。 “忘記門”（ Forget Gate）控制著過去存儲的內存量。

在收到員工加薪的請求後，你的“忘記門”會運行以下f_t的計算，其值最終會影響你的長期記憶。

下圖中顯示的權重是為了便於說明目的的隨意選擇。它們的值通常是在網絡訓練期間計算的。結果[0，0]表示要抹去（完全忘記）你的長期記憶，不要讓它影響你今天的決定。

來源：哈佛大學 P. Protopapas教授的課堂講稿

秘密4： LSTM 記得使用“輸入門”

接下來，你需要決定：最近發生的事情（隱藏狀態h）和今天發生的事情（輸入x）中的哪些信息需要記錄到你對所處情況的長遠判斷中(狀態狀態C)。LSTM通過使用“輸入門”（ Input Gate）來決定要記住什麼。

首先，你要計算輸入門的值 i_t，由於激活了sigmoid函數，值落在0和1之間；接下來，你要tanh激活函數在-1和1之間縮放輸入；最後，你要通過添加這兩個結果來估計新的細胞狀態。

結果[1，1]表明，根據最近和當前的信息，你100%處於良好狀態，給員工加薪有很高的可能性。這對你的員工來說很有希望。

來源：哈佛大學 P. Protopapas教授的課堂講稿

秘密5 ：LSTM使用“細胞狀態”保持長期記憶。

現在，你知道最近發生的事情會如何影響你的狀態。接下來，是時候根據新的理論來更新你對所處情況的長期判斷了。

當出現新值時，LSTM 再次通過使用門來決定如何更新其內存。門控的新值將添加到當前存儲器中。這種加法運算解決了簡單RNN的梯度爆炸或梯度消失問題。

LSTM 通過相加而不是相乘的方式來計算新狀態。結果C_t 被存儲為所處情況的新的長期判斷（細胞狀態）。

值[1，1]表示你整體有100％的時間保持良好的心情，並且有100％的可能性一直都有錢！你是位無可挑剔的老闆！

來源：哈佛大學 P. Protopapas教授的課堂講稿

根據這些信息，你可以更新所處情況的短期判斷：h_t(下一個隱藏狀態)。值[0.9，0.9]表示你有90%的可能性在下一步增加員工的工資！祝賀他！

來源：哈佛大學 P. Protopapas教授的課堂講稿

1、門控循環單元

LSTM細胞的一種變體被稱為門控循環單元，簡稱GRU。GRU 是Kyunghyun Cho等人在2014年的一篇論文中提出的。

GRU是LSTM細胞的簡化版本，速度比LSTM快一點，而且性能似乎也與LSTM相當，這就是它為什麼越來越受歡迎的原因。

來源：哈佛大學 P. Protopapas教授的課堂講稿

如上所示，這兩個狀態向量合併為一個向量。單個門控制器控制“忘記門”和“輸入門”。如果門控制器輸出 1，則輸入門打開，忘記門關閉。如果輸出0，則相反。換句話說，每當必須存儲內存時，其存儲位置先被刪除。

上圖中沒有輸出門，在每一步都輸出完整的狀態向量。但是，增加了一個新的門控制器，它控制之前狀態的哪一部分將呈現給主層。

2、堆疊LSTM細胞

通過對齊多個LSTM細胞，我們可以處理序列數據的輸入，例如下圖中有4個單詞的句子。

來源：哈佛大學 P. Protopapas教授的課堂講稿

LSTM單元通常是分層排列的，因此每個單元的輸出都是其他單元的輸入。在本例中，我們有兩個層，每個層有4個細胞。通過這種方式，網絡變得更加豐富，並捕獲到更多的依賴項。

3、雙向LSTM

RNN、LSTM和GRU是用來分析數值序列的。有時候，按相反的順序分析序列也是有意義的。

例如，在“老闆對員工說，他需要更努力地工作”這個句子中，儘管“他”一開始就出現了，但這句話中的他指的是：在句末提到的員工。

因此，分析序列的順序需要顛倒或通過組合向前和向後的順序。下圖描述了這種雙向架構：

來源：哈佛大學 P. Protopapas教授的課堂講稿

下圖進一步說明了雙向 LSTM。底部的網絡接收原始順序的序列，而頂部的網絡按相反順序接收相同的輸入。這兩個網絡不一定完全相同。重要的是，它們的輸出被合併為最終的預測。

來源：哈佛大學 P. Protopapas教授的課堂講稿

想要知道更多的秘密?

正如我們剛剛提到的那樣，LSTM細胞可以學會識別重要的輸入（輸入門的作用），將該輸入存儲在長期狀態下，學會在需要時將其保留（忘記門的作用），並在需要時學會提取它。

LSTM 已經改變了機器學習範式，現在可以通過世界上最有價值的上市公司如谷歌、Amazon和Facebook向數十億用戶提供服務。

自2015年中期以來，LSTM極大地改善了超過40億部Android手機的語音識別。

自2016年11月以來，LSTM應用在了谷歌翻譯中，極大地改善了機器翻譯。

Facebook每天執行超過40億個基於LSTM的翻譯。

自2016年以來，近20億部iPhone手機上搭載了基於LSTM的Siri。

亞馬遜的Alexa回答問題也是基於 LSTM。

擴展閱讀

如果你想知道更多關於LSTM和GRU的信息，可以閱讀Michael Nguyen寫的這篇帶有動畫說明的文章：https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21

對於那些喜歡從頭構建LSTM模型的人來說，這篇文章可能會有用：https://towardsdatascience.com/illustrated-guide-to-lstms-and-gru-s-a-step-by-step-explanation-44e9eb85bf21

下面，我將提供使用Python實踐實施LSTM網絡的方法。

1、情緒分析:一個基準

地址：https://towardsdatascience.com/sentiment-analysis-a-benchmark-903279cab44a

基於注意力的序列到序列模型和Transformer超越了LSTM，最近在谷歌的機器翻譯和OpenAI的文本生成方面取得了令人驚歎的成果。

2、NLU任務注意力機制的實踐指南

地址：https://towardsdatascience.com/practical-guide-to-attention-mechanism-for-nlu-tasks-ccc47be8d500

使用BERT、FastText、TextCNN、Transformer、Se2seq等可以全面實現文本分類，這個可以在 Github庫（https://github.com/brightmart/text_classification）中找到，或者你可以查看我的關於BERT的教程：https://towardsdatascience.com/bert-for-dummies-step-by-step-tutorial-fb90890ffe03雷鋒網雷鋒網雷鋒網

分享到:

閱讀更多 雷鋒網 的文章

關鍵字: 人工智能設計哈佛大學

第二章 IoC容器和Bean配置

bean是一個對象，它是由Spring

運算裡不得不說的python模塊—math

Help

Devops度量--DevOps 現狀快速檢查表

今天主要分享一個DevOps

SOP是什麼（解讀）

SOP不是單個的，是一個體系，雖然我們可以單獨地定義每一個SOP，但真正從企業管理來看，SOP不可能只是單個的，必然是一個整體和體系，也是企業不可或缺的。

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

隨著終端設備的越來越多，人工干預配置IP地址，不僅工作效率低，而且，還很容易導致IP衝突，影響正常的網絡訪問。到此已經完成了，DHCP服務的配置了，我們可以在終端驗證。

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

這兩天分析了一下頭條文章網頁的源文件，現在將分析的結果分享給大家。首先以一篇文章為例，其網址如下：https://www.toutiao.com/i6822245428176617998/如上圖網頁所示，文章中包含文字和圖片。

DNS偵查工具

我們只需要打開瀏覽器輸入例如:www.baidu.com就可以解析到該網站.為了便於記住不需要輸入長長的IP地址去訪問這就是DNS域名解析.關於域名域名的層次劃分用點來分割這時DNS把相對應的域名解析成IP地址高的在右邊.例如:www. NS簡介訪問某網站的時候最低在左邊

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

Create

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

最後一個要介紹的命令是

（必收藏系列）Linux面試題——命令集

關注，後臺私信【Linux】分享Linux入門到進階電子書、Linux入門到精通視頻教程（免費）。文件管理命令cat

五分鐘學會如何在 IPFS 上部署網站

原文標題:五分鐘學會如何在

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

1）實驗平臺：【正點原子】

小白怎麼學Web前端開發如何成為技術達人

Web前端開發工程師已經成為了很多年輕人心中的理想工作，不僅入行門檻低、而且薪資待遇和發展前景都不錯，自然吸引了大批人加入行業。

如何開發一個web靜態服務器

我們都知道如今的web服務器有很多，比如著名的有apache，有nginx，有tomcat，有resin服務器，有sphere，有iis服務器等等，這些服務器都能提供web服務，並且幾乎都能和多種語言進行搭配使用，那麼一個web服務器都需要那些功能，開發一個web服務器都需要那些

學Java編程還有前景嗎如何才能拿到高薪

需求大、薪資高似乎是Java開發人員的標籤，不過學Java編程還有前景嗎？它架構在操作系統之上，屏蔽了底層的差異，真正實現了“Writeonce run

Python網絡爬蟲之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的運行效率太低？幾行代碼快速提升！

return的就是是你所需要的結果2.3、運行這一步就是最後一步了，只要像下面一樣輸入上述函數名，賦予參數值，點擊運行Run，就能得到你想要的結果arg1=5

python的優點是什麼？最新Python400集視頻（附教程）

2020，最新Python零基礎到精通資料教材，乾貨分享，新基礎Python教材，穩穩找到過萬工作，看這裡，這裡有你想要的所有資源哦，最強筆記，教你怎麼入門提升！獲取方式：私信小編“

MySQL中OOM故障應如何下手-愛可生

作者：孫祚龍愛可生南區分公司交付服務部成員，實習工程師。負責公司產品問題排查及日常運維工作。本文來源：原創投稿*愛可生開源社區出品，原創內容未經授權不得隨意使用，轉載請聯繫小編並註明來源。

像專家一樣使用 panic

|go

30種不同的編程語言怎麼寫“Hello, World”

printfn

percona QAN 介紹

一、背景QAN慢查詢日誌分析工具是PMM

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

雖然沒什麼軟用，但是對付面試官應該是夠用了。感謝面試官提出的問題，讓我實現了這個功能，對CSS

網絡工程師職業生涯中，哪兩點是最重要的？

網絡工程師最重要的技能是紮實的基礎和非常開放的思維，微觀知識紮實、宏觀能力突出。項目經驗也會讓網絡工程師基礎更牢靠，網絡工程師是要實戰的，要避免紙上談兵，我認為對基礎理論的理解，比你清楚配置更重要。

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

有關以太坊2.0

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

yuminstall

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

今天的你捉住IPFS機遇了嗎？我們都知道在Filecoin網絡中作為一名存儲礦工，信譽對於我們是非常重要的——信譽越高，爆塊幾率越大。那麼信譽系統現在怎麼樣了呢？

Hive分桶表

fieldsterminated

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

編輯Exchange

$【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫$

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

在阿里雲控制檯，我們能下載的文件是一個壓縮包，解壓之後，是.idb和.frm文件，你可能要問了，我可以直接把解壓好的問題件覆蓋到MySQL的data目錄下嗎？

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度學習這樣實現人臉的年齡檢測

前期的文章我們分享了人臉的識別以及如何進行人臉數據的訓練，本期文章我們結合人臉識別的模型進行人臉年齡的檢測人臉年齡的檢測步驟1、首先需要進行人臉的檢測2、把檢測到的人臉數據給年齡檢測模型去檢測3、把檢測結果呈現到圖片上人臉年齡檢測import

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

圖8-1

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

先反思為何會有上述疑惑上述疑惑產生的原因，應該是受到平時使用HashMap的影響，HashMap獲取值就是在調用get方法時指定key，設置值也是在put時指定key，所以看到state.value，看懂了這些，其實也是在瞭解DataStream/DataSetAPI的設計思路：

Redis內存分析工具--rdr安裝與使用

分析Redis

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

//getData發現前一個子節點被刪除，拋出異常

一行代碼提升遷移性能

論文原址：https://arxiv.org/pdf/2003.12237.pdf開源地址：https://github.com/cuishuhao/BNM在發表在CVPR2020

利用相似幾何信息，做可泛化3D形狀分割模型

更具體的有以下三種典型的分割方案：FullyConvolutional-Like

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

介紹SpeedCrunch是一款高精度科學計算器，具有快速，鍵盤驅動的用戶界面。獲取方式在GitHub上搜索SpeedCrunch，就可以去到

分佈式緩存，真香

他是前易寶支付架構師、阿里雲MVP、騰訊雲

特徵工程的力量

在本文中，我希望教給您一些有關特徵工程的知識，以及如何使用它來對非線性決策邊界進行建模。為了說明這一點，假設恢復時間與身高和體重具有以下關係：Y=β₀+β₁+β2+β₃+noise從第三項來看，我們可以看到Y與身高和體重沒有線性關係。

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

public

SpringBoot如何優雅的使用RocketMQ

源碼編譯需要Maven3.2x，JDK8在根目錄進行打包:Copymvn-Prelease-all

css代碼規範工具stylelint

"mixin"

LSTM 為何如此有效？這五個祕密是你要知道的

秘密一：發明LSTM是因為RNN 發生嚴重的內存洩漏

秘密2 ： LSTM的一個關鍵思想是“門”。

秘密3：LSTM通過使用“忘記門”來忘記

秘密4： LSTM 記得使用“輸入門”

秘密5 ：LSTM使用“細胞狀態”保持長期記憶。

想要知道更多的秘密?

擴展閱讀

相關文章:

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

Hive分桶表

Spring中資源的加載原來是這麼一回事啊！

自己動手搭建郵件系統：怎樣讓Exchange Server 發出第一封郵件？

【MySQL】RDS物理備份文件(.idb\.frm)恢復到MySQL自建數據庫

NLP算法入門系列：隱含馬爾可夫鏈(HMM)模型的簡單介紹

第一章 Spring Framework概述

opencv人工智能深度學習這樣實現人臉的年齡檢測

嵌入式linux網絡編程之——5年程序員給你深度講解socket套接字

深入瞭解ProcessFunction的狀態操作(Flink-1.10)

Redis內存分析工具--rdr安裝與使用

資深架構師教你源碼講解zookeeper實現分佈式鎖以及集群搭建步驟

一行代碼提升遷移性能

利用相似幾何信息，做可泛化3D形狀分割模型

這麼好用的開源計算器SpeedCrunch，沒有不嘗試一下的道理

分佈式緩存，真香

特徵工程的力量

java架構：天天寫面向接口編程，你考慮過性能嗎？大神都是這麼寫

SpringBoot如何優雅的使用RocketMQ

css代碼規範工具stylelint

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪