「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

2019-11-13 18:54:05 學習機器學習

作者 | Jürgen Schmidhuber

編譯 | MrBear

毫無疑問，深度學習是影響當今世界科技發展的最重要的技術之一。2018 年，深度學習「三巨頭」因其在這個領域的卓越貢獻榮獲圖靈獎。在人們感慨人工智能迎來春天的同時，也有人為「LSTM 之父」Jürgen Schmidhuber 未能分享這份榮譽而感到遺憾。事實上，除了 LSTM 之外，深度神經網絡、卷積神經網絡、無監督學習、自監督學習、元學習、知識蒸餾、對抗生成網絡等重要技術的誕生與 Jürgen 都有著千絲萬縷的聯繫。

近日，Jürgen 親自撰文介紹了自己從上世紀90年代起在深度學習領域所做出的巨大貢獻。正如 Jürgen 所言，對於科學研究來說，「唯一真正重要的是研究的質量」。也許多年以後，當人們回顧這段歷史，我們會意識到，最重要的並不是誰發明了某項技術，而是技術本身對於人類文明發展所具有的無上價值！

Jürgen 在洋洋灑灑寫了近兩萬字之後，總結道：「放眼於以英語為主導的學術圈，我們往往不能看清一個事實——深度學習是在官方語言不是英語的地方被髮明的。」對我們中國（當前人工智能研究領域最大非英語為母語地區）的人們來說，似乎尤其應當認識到這點。

Jürgen 還提到：

深度學習只是人工智能研究的一小部分，它主要侷限於被動的模式識別。……而人工智能本身也只是更宏大的科學追求的一部分，它將宇宙從簡單的初始條件推向越來越深不可測的複雜性。最後，即使這個令人敬畏的過程可能也只是所有邏輯上可能存在的宇宙中更宏大、更有效的計算中的滄海一粟。

AI 科技評論將 Jürgen 撰寫的這篇文章編譯了下來，以饗讀者。由於文章較長，且多為歷史，如果您對過往並不感興趣，也可以只看目錄，然後迅速翻到最後的「結論」部分。

Jürgen ：我們團隊的深度學習（DL）神經網絡（NN）技術推動了模式識別和機器學習的巨大變革，如今，這些技術被學術界和工業界廣泛應用。到 2020 年，我們將慶祝這場革命背後早在 30 年前在不到 12 個月的時間裡相繼發表出來的許多基本思想，那一年正是 1990-1991 年，是深度學習在慕尼黑工業大學誕生的「奇蹟之年」！

當時，很少有人對這一研究領域感興趣，但是四分之一個世紀過去了，基於這些思想設計的神經網絡出現在了包括智能手機在內的逾 3 億臺設備上，每天會被使用數十億次，消耗著這個世界上相當大一部分的計算資源。

下面，本文將總結深度學習領域在 1990-1991 年究竟發生了什麼重要的事件，這不僅為行外人士提供了一個對該領域宏觀的介紹，同時也為那些對該領域十分了解的專家提供了評估原始資料來源的參考。我們還提到了一些後期工作，這些工作進一步發展了在 1990-1991 年（在慕尼黑工業大學、瑞典人工智能實驗室 IDSIA，以及其它地方）誕生的思想，本文還介紹了其他人的一些相關工作。本文的目錄如下：

0. 人工神經網絡深度學習的研究背景

1. 第一個基於無監督預訓練的深度學習器（1991）

2. 對一個網絡進行壓縮/蒸餾，用於一個網絡（1991）

3. 根本性的深度學習問題（梯度彌散/爆炸，1991）

4. 長短時記憶網絡（LSTM）：有監督的深度學習（基本思想誕生於 1991 年）

5. 通過對抗生成神經網絡實現人工好奇心（1990）

6. 通過最大化學習進度的神經網絡實現人工好奇心（1990）

7. 用於無監督數據建模的對抗性網絡（1991）

8. 端到端的可微「快速權值」：能學著對神經網絡進行編程的網絡（1991）

9. 通過神經網絡學習順序注意力機制（1990）

10. 分層強化學習（1990）

11. 通過循環神經世界模型規劃並進行強化學習（1990）

12. 將目標定義命令作為額外的神經網絡輸入（1990）

13. 作為神經網絡輸入/通用值函數的高維獎勵信號（1990）

14. 確定性的策略梯度（1990）

15. 用網絡調整網絡/合成梯度（1990）

16. 用於在線循環神經網絡的時間複雜度為 O(n3) 的梯度計算

17. 深度神經「熱交換器」（1990）

18. 我的博士畢業論文（1991）

19. 從無監督預訓練到純粹的監督式學習（1995-1995，,2006-2011）

20. 令人驚訝的關於人工智能的 FKI 系列技術報告（1990 年代）

21. 結語

0. 人工神經網絡深度學習的研究背景

人類大腦擁有約 1,000 億個神經元，平均每個神經元都會與其餘的 10,000 個神經元相連。在這些神經元中，有一些是為其它神經元提供數據（聲音、視覺、觸覺、疼痛、飢餓）的輸入神經元。另一些神經元則是控制肌肉的輸出神經元。而大多數神經元則隱藏在輸入和輸出之間的處理過程中，這也正是我們進行思考的地方。顯然，大腦是通過改變連接的強度或權重進行學習的，這樣可以決定神經元之間互相影響的強度，而這種機制似乎也對人們一生中積累的經驗進行了編碼。

我們的人工神經網絡（NN）的工作原理與上述人類的神經系統相類似，它能夠比先前的各種方法更好地進行學習，從而完成語音識別、手寫數字識別或視頻識別，最小化損失、最大化受益，甚至自動駕駛汽車等任務[DL1][DL4]。

大多數現代的商業應用都重點關注讓神經網絡能夠模仿人類「老師」的監督學習[DL1][DL4]。經過了多次試驗，Seppo Linnainmaa 在 1970 年提出了一種基於梯度的計算方法[BP1]，我們現在通常將其稱為反向傳播算法或自動微分的逆序模式，該算法被用來逐漸減弱某些神經網絡連接，同時增強其它的連接，從而使神經網絡與帶有監督信號的「老師」的行為越來越相似（相關變體見[BPA][BPB][BP2]）。

如今，那些最為強大的神經網絡往往具有很深的結構，也就是說，他們有許多層神經元或若干後續的計算階段。然而，在 1980 年代，基於梯度的訓練方法並不適用於深度神經網絡，僅在淺層神經網絡上有較好的表現[DL1][DL2]。

這種「深度學習問題」在循環神經網絡（RNN，於 1945 年首次被非正式地提出[MC43]，於 1956 年被正式提出[K56]——相關變體見[PDA2]）上體現的最明顯。循環神經網絡與人類大腦相類似，但與限制更多的前饋神經網絡（FNN）不同，RNN 具有反饋連接。這種結構使 RNN 成為了功能強大、通用性強，可以進行並行計算的計算模型，它能夠處理任意長度的輸入序列（例如，語音或視頻）。

RNN 基本上可以實現所有可以在你的筆記本電腦上運行的程序。如果我們想要構建一個通用人工智能系統，則其底層的計算基礎必然是類似於 RNN 的結構，因為 FNN 從根本上存在不足。RNN 與 FNN 的關係，就好比通用計算機和專用計算器的關係。

尤其是，不同於 FNN，RNN 基本上可以處理任意深度的問題[DL1]。然而，在 1980 年代，早期的 RNN 實際上並不能學習較深的問題。我希望克服這一缺點，實現基於 RNN 的「通用深度學習」。

1. 第一個基於無監督預訓練的深度學習器（1991）

為了解決上述的「深度學習問題」，我首先想到了通過對一個層次化 RNN 的無監督預訓練促進深度 RNN 中的監督學習（1991），從而實現了第一個「非常深的學習器」，我們將其稱為「神經序列組塊」（Neural Sequence Chunker）[UN0]，或稱「神經歷史壓縮器」[UN1]。每個更高層的 RNN 會使用預測性編碼技術最小化下層 RNN 中的數據表徵的描述長度（或負對數概率）。其中，預測性編碼技術試圖在給定先前的輸入的情況下，預測接下來的數據流中的下一個輸入，並且只在存在不可預測的數據時更新神經激活值，因此此時只存儲未知的東西。換句話說，神經序列組塊會學著壓縮數據流，從而減緩「深度學習問題」，使其能夠通過標準的反向傳播方法求解。

儘管那時的計算機要比現在同等價位的計算機運算得慢一百萬倍，但是截止到 1993 年，我的方法可以解決之前無法解決的、深度大於 1000[UN2] 的「非常深的深度學習」（需要超過 1000 個後續的計算步驟，步驟越多則學習的深度越深）。在 1993 年，我們還發布了一個「連續」版本的神經歷史壓縮器[UN3]。

據我所知，序列組塊[UN0]同時還是第一個由在不同（自組織的）時間尺度上運行的 RNN構成的系統（實際上，我還有一種方法，可以將所有這些 RNN 「蒸餾」到一個很深的、在單個時間尺度上運行的 RNN 中——詳見本文第 2 章）。幾年之後，其他的研究者也開始在多時間尺度 RNN 的研究領域發表相關工作（例如，[HB96]，相關的工作還有 Clockwork RNN[CW]）。

在這項工作發表十多年後[UN1]，一種針對限制更強的前饋神經網絡的類似方法被提出，這種方法通過堆疊的前饋神經網絡的無監督預訓練使監督訓練的性能得到了提升，該方法被稱為深度置信網絡（DBN）[UN4]。在這篇於 2006 年發表的論文中，作者的證明與我在 1990 年代初期為我的堆疊式 RNN 所使用的證明幾乎如出一轍：每個更高的層試圖縮短下層中數據表徵的描述長度（或負對數概率）。

在上述的基於無監督預訓練的深度學習器被提出後不久，「深度學習問題」（詳見第 3 章）也通過我們的純監督 LSTM 被解決了（詳見第四章）。後來，在 2006 到 2011 年間，我的實驗室又推動了一次非常相似的從無監督預訓練到純監督學習的轉變。在「奇蹟之年」過去 20 年後，這一次，通用性較低的前饋神經網絡（FNN）催生了在癌症檢測和許多其它問題上的革命性應用，而不是循環神經網絡（RNN）。詳細情況見第十九章。

當然，前饋神經網絡深度學習的起源要追溯到更早的時期。1965 年，Ivakhnenko 和 Lapa 為具有任意層數的深度多層感知機發布了第一個通用可行的學習算法[DEEP1]。例如，Ivakhnenko 於 1971 年發表的論文[DEEP2] 就已經提出了一個 8 層的深度學習網絡，該網絡採用了一種高被引方法[DL2] 進行訓練，這種方法直到 2000 年後仍然被廣泛使用。但是，與 Ivakhnenko 與其後繼者在 1970 年代和 1980 年代提出的深度 FNN 不同，我們的深度 RNN 具有通用的並行序列計算架構[UN0-3]。

直到 1990 年代初期，大多數神經網絡方面的研究仍然僅限於包含 10 個以內的後續計算步驟的非常淺的網絡，而我們的方法已經可以使包含 1,000 個這樣的後續計算步驟的網絡正常工作。我想說的是，正是我們讓神經網絡變得這麼深（尤其是 RNN，它是所有網絡中最深、功能最強大的）。

2. 對一個網絡進行壓縮/蒸餾，用於一個網絡（1991）

在我們上面提到的關於神經歷史壓縮器（第 1 章）的論文中，還介紹了一種將網絡的層次結構（較高層網絡相較於較低層網絡，往往在慢得多的自組織時間尺度上運行）壓縮到一個深度 RNN[UN1] 中，從而在儘管存在第 0 章提到的障礙的情況下，學著解決非常深的網絡的學習問題。這部分的內容在參考文獻 [UN1][DIST1] 的第 4 章有介紹，它們討論了「有意識」的組塊和「下意識」的自動化，介紹了將一個神經網絡的知識遷移到另一個神經網絡上的通用原則。

假設有一個「老師」神經網絡和一個「學生」神經網絡，「老師」神經網絡已經學會了對在給定其它數據的情況下，預測數據（的條件期望）。那麼我們可以通過訓練「學生」神經網絡模仿「老師」神經網絡的行為，將「老師」神經網絡的知識壓縮到一個「學生」神經網絡中（同時重新訓練學生神經網絡去完成之前學過的技能，從而避免它遺忘這些技能）。

我將這種操作稱作將一個網絡的行為「摺疊」或「壓縮」到另一個網絡中。如今，這種方法被廣泛使用，有的研究者（例如，Hinton）也將它稱為將「老師」網絡的行為「蒸餾」[DIST2] 或「克隆」到一個「學生」網絡中。

3. 根本性的深度學習問題（梯度彌散/爆炸，1991）

在介紹背景知識的第 0 章中，我們指出深度學習是很困難的。但是為什麼它很困難呢？我喜歡將其中的一個主要原因稱為「根本性的深度學習問題」，而我的第一個學生 Sepp Hochreiter 於 1991 年在他的畢業論文 [VAN1] 中提出了這個問題，並且對其進行了分析。

作為這篇論文的一部分，Sepp 實現了上面（第 1 章）介紹的「神經歷史壓縮器」和其它基於 RNN 的系統（第 11 章）。除此之外，他還做了更多的工作——他的工作正式說明了，深度神經網絡受困於如今非常著名的「梯度彌散」或「梯度爆炸」問題：在典型的深度網絡或循環網絡中，反向傳播的誤差信號要麼迅速衰減，要麼增長得超出界限。在這兩種情況下，學習都會失敗。這樣的分析催生了如今的 LSTM 的基本原理（詳見第 4 章）。

（在 1994 年，還有其他研究者的研究成果 [VAN2] 和 Sepp 於 1991 年發表的有關梯度彌散的研究成果 [VAN1] 基本一模一樣。甚至在公開發表了論文 [VAN3] 之後，本文參考文獻 [VAN2] 的第一作者還發表了一系列論文（例如 [VAN4]），並且只引用了他自己在 1994 年發表的論文，但對 Sepp 的原創性工作隻字不提。）

請注意，在 Sepp 的論文指出那些深度神經網絡中反向傳播的問題之前 20 年，有一位名字相似的學生（Seppo Linnanimaa）於 1970 年在他的論文中發表了現代的反向傳播算法，或稱自動微分的逆向模式[BP1]。

4. 長短時記憶網絡（LSTM）：有監督的深度學習

長短時記憶虛幻神經網絡（LSTM）[LSTM1-6] 克服了 Sepp 在其 1991 年發表的畢業論文 [VAN1]（詳見第 3 章）中提出的根本性的深度學習問題。我認為這是機器學習歷史上最重要的論文之一。它還通過我們在 1995 年發佈的技術報告 [LSTM0] 中所稱的 LSTM 的基本原理（例如，恆定誤差流）為解決根本性的深度學習問題提供了重要的思路。這催生了如下所述的大量後續工作。

明年，我們將慶祝 LSTM 首次未能通過同行評審的 25 週年。1997年，在經過了主要的同行評審出版物 [LSTM1]（現在是「Neural Computation」期刊歷史上引用量最多的文章）發表之後，LSTM 模型和它的訓練過程都得到了進一步的改進，這些工作由瑞士人工智能實驗室「IDSIA」的瑞士 LSTM 基金支撐，我後來的學生 Felix Gers、Alex Graves 等人參與到了這些工作中。

其中一個具有里程碑意義的工作是：帶有遺忘門 [LSTM2] 的「vanilla LSTM」架構，這是1999年到 2000 年間被提出的 LSTM 變體，直到現在仍然被廣泛使用（例如，在谷歌的 Tensorflow 中）。LSTM 的遺忘門實際上是一種端到端可微的快速權值控制器，我們在 1991 年也提出了這種結構[FAST0](詳見第八章)。

Alex 是我們首次成功地將 LSTM 應用於語音領域的工作的第一作者 (2004)[LSTM10]。2005 年，我們發佈了第一個具有完全基於時間的反向傳播功能的 LSTM 和雙向 LSTM 發 [LSTM3]（現在被廣泛使用）。2006 年，另一個重要的里程碑是：用於同時對齊和序列識別的訓練方法「連接時序分類」（簡稱 CTC）[CTC]。自 2007 年以來，CTC 成為基於 LSTM 的語音識別的必要技術。例如，在 2015 年，「CTC-LSTM」的組合顯著提升了谷歌語音識別系統的性能 [GSR15][DL4]。

在 2000 年代初期，我們說明了 LSTM 如何學習傳統模型（如隱馬爾可夫模型）無法學習的語言 [LSTM13]。過了一段時間，這份工作才被理解；但到了 2016~2017 年，谷歌翻譯 [WU][GT16] 和 Facebook 翻譯 [FB17] 均基於兩個連接的 LSTM 被提出，其中一個 LSTM 被用於輸入文本，另一個被用於輸出翻譯，這種模型的性能比之前的模型要好得多[DL4]。

2009 年，我的博士學生 Justin Bayer 作為第一作者完成了一個自動設計類似於 LSTM 的架構的系統，該系統在某些應用上的性能超過了「vanilla LSTM」。2017 年，谷歌開始使用類似的「神經網絡架構搜索」（NAS）技術。

自 2006 年起，我們一直與軟件公司（例如，LifeWare）通力合作，大大提升了首寫字母識別系統的能力。2009 年，在 Alex 的努力下，利用「連接時序分類」（CTC）技術訓練的 LSTM 模型成為了首次在國際競賽（三個 ICDAR 2009 舉辦的聯通首寫字母識別大賽（法文、波斯文、阿拉伯文））中奪冠的 RNN 模型。這極大地吸引了工業界的興趣。

不久之後，LSTM 便被廣泛應用於涉及包括語言、語音、視頻在內的序列數據的一切任務 [LSTM10-11][LSTM4][DL1]。截至 2017年，人們基於 LSTM 模型構建了Facebook 的機器翻譯系統（每週需要完成超過300 億份翻譯任務）[FB17][DL4]，超過 10 億臺 iPhone 上運行的蘋果的「Quicktype」智能輸入法 [DL4]，亞馬遜的 Alexa 語音助手，谷歌的語音識別（自 2015 年起內置於安卓設備）[GSR15][DL4]、圖像字幕生成[DL4]、機器翻譯[GT16][DL4]、自動郵件回覆[DL4] 等系統。美國的「商業週刊」將 LSTM 成為「商業化程度最高的人工智能研究成果」。

到 2016 年為止，谷歌數據中心超過四分之一的算力都被用於 LSTM（相比之下，只有 5% 被用於另一種名為「卷積神經網絡」的流行的深度學習技術——詳見第 19 章）[JOU17]。谷歌 2019 年發佈的新的設備內置的語音識別（現階段內置於你的手機上，而不是部署在服務器上）仍然是基於 LSTM 模型設計的。

通過我的學生 Rupesh Kumar Srivastava 和 Klaus Greff 的工作，LSTM 的原理也催生了我們在 2015 年 5 月提出的「Highway」神經網絡[HW1]，這是第一個具有數百層非常深的 FNN 結構的網絡。微軟提出的廣為人知的 ResNet[HW2]（ImageNet 2015 競賽的冠軍方案）就是 Highway 神經網絡的一種特例。然而，早期的 Highway 網絡就可以在 ImageNet 上取得與 ResNet 大致相當的性能[HW3]。Highway 層還常常被用於自然語言處理領域，而此時更為簡單的殘差層則性能較差[HW3]。

我們還通過沒有「老師」監督信息的強化學習（RL）技術訓練 LSTM 模型（例如，我的博士後 Bram Bakker 於 2002 年發表的工作 [LSTM-RL]）。我們還通過神經演化來訓練 LSTM，例如我的博士生 Daan Wierstra 於 2005 年發表的工作 [LSTM12]，Daan 後來成為了 DeepMind 公司的 1 號員工，而 DeepMind 的聯合創始人正是我實驗室中的另一名博士生 Shane Legg（Shane 和 Dann 是 DeepMind 公司裡最早發表人工智能論文的計算機科學博士）。

強化學習與 LSTM 的結合具有重要的意義。例如， 2019 年，DeepMind 在「星際爭霸」遊戲（該遊戲在很多方面都要比國際象棋和圍棋更加困難）中擊敗了職業玩家，而它們使用的正式一種名為「Alphastar」的算法，該算法的決策中樞擁有通過強化學習訓練的深度 LSTM 核心 [DM3]。OpenAI 的「Dactyl」仿人機械手也採用了通過強化學習訓練的 LSTM 核心，它能夠學著在沒有「老師」監督信息的情況下，控制靈巧的機器人手[OAI1]，同時「OpenAI Five」也於 2018 年通過學習在 DOTA2 遊戲中成功擊敗了人類職業玩家 [OAI2]。

上面提到的這一切成果的重要基礎都是在 1991 年奠定的。後來，在慕尼黑工業大學和（當時還是私人的）瑞士 Dalle Molle 人工智能研究所（IDSIA）的基礎基金以及我在 1990 年代和 2000 年代早期的「神經網絡寒冬」中從瑞士、德國、歐盟獲得的公共基金的資助下，我的團隊還研發出了「LSTM&CTC」等成果，試圖在幾乎沒有人對神經網絡感興趣的年代保持這一領域的活力。

在此，我要特別鳴謝 Kurt Bauknecht、Leslie Kaelbling、Ron Wiliams 以及 Ray Solomonoff 等教授，他們對我提交的基金申請的積極評價在很大程度上幫助我自從 1990 年代以來獲得了來自 SNF 的資金支持。

5. 通過對抗生成神經網絡實現人工好奇心（1990）

當人類與自己身處的世界交互時，他們會學著預測自己行為的後果。人們有很強的好奇心，會通過設計實驗得出新的數據，並且可以從中學到更多知識。1990 年，為了構建具有好奇心的人工智能體，我提出了一種新型的主動無監督學習（或自監督學習）算法[AC90, AC90b]。該方法以一個極小極大博弈為基礎，其中一個神經網絡最小化另一個神經網絡最大化的目標函數。現在，我把這種兩個無監督的對抗性神經網絡之間的博弈稱為對抗性好奇心 [AC19]，以區別於我們後來自從 1991 年提出的人工好奇心（詳見第六章）。

然而，對抗性好奇心的工作原理如何呢？我們不妨將第一個神經網絡成為控制器 C，C 以一定概率生成可能對某個環境產生影響的輸出。第二個神經網絡被稱為世界模型 M，M 可以預測環境對於 C 的輸出做出的反應，其使用梯度下降法最小化其誤差，從而逐漸成為更好的預測器。然而，在一個「零和博弈」中，C 試圖找到的是使得 M 的誤差最大的輸出。因此，M 的損失就是 C 的增益。

也就是說，C 的目的是生成新的輸出或者實驗來產生仍然能使 M 感到新奇的數據，直到生成的數據對於 M 來說十分熟悉、最終變得「無聊」。近年來，研究者們基於這個原理進行的相關總結和拓展請參閱 [AC09]。

因此，在 1990 年，我們已經擁有了無監督（或自監督）的同時滿足「生成式」和「對抗性」（這裡我們採用很久以後在 2014 年的 [GAN1] 中出現的術語）兩大特徵的神經網絡，它們生成能夠產生新數據的實驗輸出，這不僅僅適用於靜態的模式，同時也可以用於模式的序列，甚至是通用場景下的強化學習。

當下火熱的對抗生成網絡（GAN）[GAN0][GAN1]（2010-2014）是對抗性好奇心[AC90] 的一種應用，其中環境僅僅返回 C 目前的輸出是否屬於一個給定的集合 [AC19]。

此外，請注意：對抗性好奇心 [AC90, AC90b]、GAN[GAN0, GAN1] 以及對抗可預測性最小化（詳見第七章）是密切相關的概念。而它們與早期的對抗性機器學習問題的設定 [GS59][H90] 又很不一樣，早期的對抗性機器學習既不涉及無監督神經網絡，也不涉及數據建模，而且也沒有使用梯度下降方法 [AC19]。

6. 通過最大化學習進度的神經網絡實現人工好奇心（1990）

最近，有許多綜述文章 [AC06][AC09][AC10] 對關於 1990 年提出的對抗性好奇心（AC1990，詳見第 5 章）的改進進行了總結。在這裡，我將重點介紹1991 年 [AC91][AC91b] 對對抗性好奇心的第一個重要改進。

在這份工作中，AC1990 的世界模型 M 的誤差（需要最小化，詳見第五章）是控制器 C 的獎勵（需要最大化）。這在許多確定性的環境中是一種非常好的策略。然而，在隨機化的環境中，這種策略則可能失效。C 可能會學著重點關注 M 總是由於隨機性或由於其計算限制而得到高預測誤差的情況。例如，一個由 C 控制的智能體可能會面對一個播放著極其難以預測的白噪聲的電視屏幕而束手無策 [AC10]。

因此，正如我們在 1991 年所指出的，在隨機環境中，C 的獎勵不應該是 M 的誤差，而應該是 M 的誤差在後續訓練迭代過程中的一階導數的近似，即 M 獲得的改進[AC91][AC91b]。因此，儘管面對上述充滿噪聲的電視屏幕會導致很高的誤差，但 C 也不會在陷入這種困境時獲得獎勵。完全可預測和根本不可預測的情況都會使好奇心消失。這種思路催生了許多人工智能科學家和藝術家 [AC09] 的後續工作 [AC10]。

7. 用於無監督數據建模的對抗性網絡（1991）

在我 1990 年發表首篇關於對抗生成網絡的工作（詳見第 5 章）後不久，我在科羅拉多大學博爾德分校做博士後時，又提出了一種無監督對抗性極小極大值原理的變體。神經網絡最重要的任務之一就是學習圖像等給定數據的統計量。

為了實現這一目標，我再次在一個極小極大博弈中使用了梯度下降 / 上升的原理，其中一個神經網絡將最小化另一個神經網絡最大化的目標函數。這種兩個無監督對抗性神經網絡之間的對抗被稱為可預測性最小化 (PM，1990 年代提出)。與後來的 [GAN1] 不同，PM 是一個純粹的極大極小博弈，例如 [PM2] 中的等式 2。相關綜述文章請參閱 [AC19])。

第一個關於 PM 的小型實驗 [PM1] 是在大約 30 年前進行的，當時其計算成本大約是現在的 100 萬倍。5 年後，當計算成本降低了 10 倍時，我們得以說明，應用於圖像的半線性 PM 變體會自動生成在神經科學領域廣為人知的特徵檢測器（例如，從中心到周圍的檢測器、從周圍到中心的檢測器，以及方向敏感的棒狀檢測器 [PM2]）。

8. 端到端的可微「快速權值」：能學著對神經網絡進行編程的網絡（1991）

一個典型的神經網絡擁有比神經元更多的連接。在傳統的神經網絡中，神經元的激活值變化較快，而連接權值變化則較慢。也就是說，大量的權重無法實現短期記憶或臨時變量，只有少數神經元的激活值可以做到。具有快速變化的「快速權值」的非傳統神經網絡則克服了這一侷限性。

神經網絡的動態連接或快速權值是由 Christoph v. d. Malsburg 於 1981 年提出的 [FAST]，其他學者對此進行了更深入的研究，例如 [FASTb]。然而，這些作者並沒有採用端到端可微的系統，通過梯度下降學習來迅速操作「快速權重」的存儲。我在 1991 年發表了下面這樣的系統 [FAST0][FAST1]，其中慢速神經網絡學著去控制獨立的快速神經網絡的權值。也就是說，我將存儲和控制像在傳統計算機中那樣分開，但是，是以完全的神經方式（而不是以混合方式）做到這一點。這種思路催生了許多後續的工作，下面我將列舉其中的一些。

一年之後，我提出了基於梯度下降的、通過二維張量或外積更新實現的對快速權值的主動控制 [FAST2]（可以與我們在該領域最新的工作對比 [FAST3][FAST3a]）。我們的動機是，在端到端可微控制下獲得比同樣大小的標準 RNN 更多的可能的臨時變量：從 O（H）變成O（H^2），其中 H 為隱藏單元的數量。25 年後，其他研究者也採用了這種方法 [FAST4a]。論文 [FAST2] 也明確地討論了對端到端可微網絡中「內部注意力關注點」（Internal Spotlights of Attention）的學習問題。相關工作請參閱第九章有關學習注意力的內容。

我也曾說明了「快速權值」可以如何被用於元學習或「Learning to Learn」，這也是我自 1987 年以後的一個主要的研究課題 [META1]。在 1992 年後的參考文獻 [FASTMETA1-3] 中，慢速 RNN 和快速 RNN 是相同的：網絡中每個連接的初始權值都是由梯度下降法訓練的，但是在一個迭代週期中，每個連接都可以由網絡本身編址、閱讀、並修改（通過 O（log^n）個特殊的輸出單元，其中 n 是連接的數目）。

而連接的權值可能迅速變化，從某種意義上說，網絡具有了「自我參照」效應（認知心理學概念，指記憶材料與自我聯繫時記憶效果優於其它編碼條件），這是由於理論上它可以學著運行任意可計算的權值變化算法或學習算法（作用於該網絡的所有權值）。這催生了 1990 年代和 2000 年代的許多後續工作。

不使用「老師」監督信號的深度強化學習（RL）也可以從快速權值中受益（即使系統的動力不可微）。2005 年，我之前的博士後 Faustino Gomez [FAST5]（現為 NNAISENSE 的 CEO）也說明了這一點，而那時人們負擔得起的電腦的運行速度相較於 1990 年代已經提升了 1000 倍。

此外，據我所知，我們同年在深度強化學習領域所做的相關工作（但是沒有使用快速權值）是第一份在標題中包含了「Learn deep」詞組的機器學習論文 [DL6]（2005 年，不久之後許多人開始討論「深度學習」）。

在過去的幾十年中，我們發表了大量其它的方法來學習如何通過非常緊湊的代碼，快速生成大型神經網絡的大量的權值，例如：[KO0][KO1][KO2][CO1][CO2][CO3]。在此，我們利用了「成功的大型神經網絡的柯爾莫哥洛夫複雜性或算法的信息量實際上可能非常小」這一規律。

值得一提的是，在 2013 年 7 月，「壓縮網絡搜索」（Compressed Network Search）[CO2] 成為了第一個在沒有任何無監督預訓練（與第一章不同）的情況下，使用強化學習技術成功地直接根據高維感知數據（視頻）學會控制策略的深度學習模型。不久之後，DeepMind 也開發出了一個用於高維感知輸入的深度強化學習模型 [DM1][DM2]。

現在，最著名的基於快速權值的端到端可微神經網絡 [FAST0] 實際上是我們 2000 年提出的 vanilla LSTM 網絡 [LSTM2]（詳見第 4 章），它的遺忘門可以學著控制內部 LSTM 神經元的自循環連接的快速權值。今天，所有主要的 IT 公司都大量使用 vanilla LSTM[DL4]。同樣，這個模型的起源可以追溯到 1991 年（詳見第 4 章和第 8 章）。

9. 通過神經網絡學習順序注意力機制（1990）

與傳統的神經網絡不同，人類使用連續的目光移動和選擇性注意力來檢測和識別模式。這可能比傳統 FNN 高度並行的方法有效得多。這正是我們在 30 年前（1990 年及之前）提出順序注意力學習神經網絡的原因 [ATT0][ATT1]。不久之後，我還明確地提出了在 RNN 中對「內部注意力關注點」的學習 [FAST2]（詳見第 8 章）。

因此，當時我們已經提出了現在非常常用的兩種類型的神經順序注意力機制：

（1）（在潛在空間中）通過神經網絡中的乘法單元實現的端到端可微的「軟」注意力 [FAST2]；

（2）（在觀測空間中）實現的強化學習（RL）環境中的「硬」注意力機制 [ATT0][ATT1]。

這催生了許多後續的工作。今天，許多人都在使用帶有順序注意力學習機制的神經網絡。

我為 CMSS 1990 所寫的綜述論文 [ATT2] 在它的第 5 章中總結了我們早期關於注意力機制的工作。據我所知，這是首次實現結合了 glimpse 注意力機制（使用注意力組件，即固定控制器同時訓練識別和預測組件）的神經系統。20 年後，我這篇 1990 年的論文的審稿人（Hinton）在一篇他以第二作者身份發表的相關論文中寫道 [ATT3]：「據我們所知，這是首次使用一個注意力組件（固定控制器）實現結合了 glimpse 來同時訓練識別組件...的系統」。（相關內容請參閱第 10 章）

10. 分層強化學習（1990）

傳統的不具有「老師」的強化學習（RL）不能層次化地將問題分解為更容易解決的子問題。正是我在 1990 年提出分層強化學習（HRL）的原因，HRL 使用基於神經網絡的端到端可微分的子目標生成器[HRL0]，以及學著生成子目標序列的循環神經網絡（RNN）[HRL1][HRL2]。強化學習系統獲得形如（start，goal）的額外輸入。有一個評價器神經網絡會學著預測從起始狀態到目標狀態的獎勵/開銷。基於 RNN 的子目標生成器也可以獲取（start，goal），並使用評價器神經網絡的副本通過梯度下降來學習成本最低的中間子目標序列。強化學習系統試圖使用這樣的子目標序列來實現最終目標。

我們在 1990-1991 年間發表的論文 [HRL0][HRL1] 是後續各種分層強化學習論文（例如，[HRL4]）的先驅。不久之後，其他的研究者們也開始發表 HRL 領域的論文。例如，本文的參考文獻 [ATT2] 的審稿人正是參考文獻 [HRL3] 的尾作（相關工作請參見第 9章）。

11. 通過循環神經世界模型規劃並進行強化學習（1990）

1990 年，我提出了基於兩個 RNN 的組合（控制器 C 和世界模型 M）的強化學習和規劃（請參閱第五章）。M 學著去預測 C 行為的後果。C 則學著使用 M 提前幾個時間步進行規劃，從而選擇最大化預測累積獎勵的動作序列 [AC90]。近年來，這一思路也催生了許多後續工作（例如，[PLAN2-6]）。

1990 年的 FKI 科技報告 [AC90] 也提出了一些其它最近變得很熱門的概念。詳情請參閱第 5、12、13、14、20 章。

12. 將目標定義命令作為額外的神經網絡輸入（1990）

在現在的強化學習神經網絡中，有一個被廣泛使用的概念：用額外的目標定義輸入模式來編碼各類人物，這樣一來神經網絡就知道下一步該執行哪個任務。我們在 1990 年的許多工作中 [ATT0][ATT1][HRL0][HRL1] 提到了這一概念。在 [ATT0][ATT1] 中，我們使用一個強化學習神經控制器學著通過一系列的「掃視」（Saccade）操作去控制任務的「凹軌跡」（Fovea），從而找到視覺場景下的特定目標，因此可以學習到順序注意力（詳見第 9 章）。

我們通過特殊的不變的「目標輸入向量」將用戶定義的目標輸入給系統（詳見第 3 章第 2 節 [ATT1]），而系統通過「凹軌跡移動」（Fovea-Shifting）來形成其視覺輸入流。

具有端到端可微字目標生成器的分層強化學習（HRL，詳見第 10 章）[HRL0][HRL1] 也使用了一個具有形如（start，goal）的任務定義輸入的神經網絡，學著預測從起始狀態到目標狀態的成本。（25 年後，我之前的學生 Tom Schauls 在 DeepMind 提出了「通用值函數近似器」[UVF15]）。

這一思想催生了許多後續的工作。例如，我們開發的「POWERPLAY」系統（2011）[PP][PP1] 也使用了任務定義的輸入將不同的任務區分開來，不斷地提出自己IDE新目標和新任務，以一種主動的、部分無監督的或自監督的方式逐漸學著成為一個越來越通用的問題求解器。2015 年，使用高維視頻輸入和內在動機（intrinsic motivation）的強化學習機器人也學著去探索 [PP2]。

13. 作為神經網絡輸入/通用值函數的高維獎勵信號（1990）

傳統的強化學習是基於一維獎勵信號的。然而，人類有數百萬種作用於不同種類刺激（例如，疼痛和愉悅）的信息傳感器。據我所知，參考文獻 [AC90] 是第一篇關於具有多維、向量值的損失和獎勵信號的強化學習的論文，這些信號從許多不同的感知渠道傳入，我們將預測所有這些傳感器接受信號的累計值，而不僅僅是單個標量的整體獎勵，這與之後的通用值函數（GVF）相類似。不同於之前的自適應評價（adaptive critics），我們 1990 年發表的這篇論文 [AC90] 提出的學習機制是多維循環的。

不同於傳統的強化學習，這些信息量巨大的獎勵信號也被用作使控制器神經網絡學著執行最大化累積獎勵的動作的輸入。

14. 確定性策略梯度（1990）

在我 1990 年發表的論文 [AC90] 的「Augmenting the Algorithm by Temporal Difference Methods」一章中，我們也結合了用於預測累積獎勵（可能是多維獎勵，詳見第十三章）的基於動態規劃的時間差分方法 [TD] 以及基於梯度的世界預測模型（詳見第十一章），從而計算單個控制網絡的權值變化。相關工作請參閱第 2.4 節介紹的 1991 年的後續工作 [PLAN3]（以及類似的 [NAN1]）。

25 年後，DeepMind 提出了該方法的一種變體「確定性策略梯度算法」（Deterministic Policy Gradient algorithm，DPG）[DPG][DDPG]。

15. 用網絡調整網絡/合成梯度（1990）

1990 年，我提出了各種學著調整其它神經網絡的神經網絡 [NAN1]。在這裡，我將重點討論「循環神經網絡中的局部監督學習方法」（An Approach to Local Supervised Learning in Recurrent Networks）。待最小化的全局誤差度量是循環神經網絡的輸出單元在一段時間內接收到的所有誤差的總和。在傳統的基於時間的反向傳播算法中（請參閱綜述文章 [BPTT1-2]），每個單元都需要一個棧來記住過去的激活值，這些激活值被用於計算誤差傳播階段權值變化的貢獻。

我沒有讓算法使用棧式的無限存儲容量，而是引入了第二種自適應神經網絡，該網絡學著將循環神經網絡的狀態與相應的誤差向量相關聯。這些局部估計的誤差梯度（並非真實梯度）則會被用於調整循環神經網絡 [NAN1][NAN2][NAN3][NAN4]。

不同於標準的反向傳播，該方法在空間和時間上都是局部的 [BB1][NAN1]。25 年後，DeepMind 將這種技術稱為「合成梯度」(Synthetic Gradients)[NAN5]。

16. 用於在線循環神經網絡的時間複雜度為 O(n3) 的梯度計算

我們最初在 1987 年發表的用於完全循環連續運行的網絡的固定大小的存儲學習算法 [ROB] ，在每一個時間步需要 O(n^4) 的計算複雜度，其中 n 是非輸入單元的數目。我提出了一種方法來計算完全相同的梯度，它需要固定大小的與之前的算法同階的存儲空間。但是，每個時間步的平均時間複雜度只有 O(n^3)[CUB1][CUB2]。然而，這項工作並非沒有意義，因為偉大的循環神經網絡研究的先驅 Ron Williams 首先採用了這種方法 [CUB0]！

此外，1987 年，當我發表我當時認為是首篇關於遺傳編程（GP，即自動演化的計算機程序 [GP1]）的文論文時，也犯下了類似的錯誤，直到後來我才發現 Nichael Cramer 已經於 1985 年發表了 GP 算法 [GP0]（而且在 1980 年， Stephen F. Smith 已經出了一種相關的方法，作為一個更大的系統的一部分 [GPA]）。

自那以後，我一直盡我所能做到公正和誠信。至少，我們 1987 年的論文 [GP1] 似乎是第一篇將 GP 用於帶有循環結構以及可變大小的代碼的論文，也是首次關於在邏輯編程語言中實現 GP。

17. 深度神經「熱交換器」（1990）

「神經熱交換器」（NHE）是一種用於深度多層神經網絡的監督式學習方法，受啟發於物理意義上的熱交換器。輸入「加熱」會經過許多連續層的轉換，而目標則從深層管道的另一端進入並且進行「冷卻」。與反向傳播不同，該方法完全是局部的，使其不需要進行並行計算也可以較快運行。

自 1990 年 [NHE] 發表以來，我不定期地在各大學的演講中會提到該方法，它的與亥姆霍茲機 (Helmholtz Machine) 關係密切。同樣，該方法的實驗是由我傑出的學生 Sepp Hochreiter 完成的（詳見第 3 章、第 4 章）。

18. 我的博士畢業論文（1991）

1991 年，我發表了我在慕尼黑工業大學的博士論文 [PHD]，總結了我自 1989 年以來的一些早期工作，其中包括：第一個強化學習（RL）神經經濟學方法（Neural Bucket Brigade）[BB1][BB2]、用於局部時空循環神經網絡的學習算法 [BB1]、具有端到端可微子目標生成器的分層強化學習（HRL，詳見第 10 章）、通過兩個被稱為控制器 C 和世界模型 M 的循環神經網絡組合進行強化學習和規劃、順序注意力學習神經網絡、學著調整其他神經網絡的神經網絡（包括「合成梯度」，詳見第 15 章），以及用於實現「好奇心」的無監督或自監督的生成對抗網絡（詳見第 5 章）。

當時，許多其他人的神經網絡研究受到了統計力學的啟發（例如，[HOP]）。我在 1990-1991 年間的工作（以及我早先於 1987 年發表的學位論文）呈現了另一種面向程序的機器學習的觀點。

1931 年，Kurt Gödel 在創立理論計算科學時用基於整數的通用編碼語言表示數據（例如公理和定理）和程序（例如針對數據進行的操作的證明生成序列）。眾所周知，他使用這種語言構建正式的聲明（statement），這些聲明可以說明其它正式聲明的計算過程，特別是「自我參照」的正式聲明，聲明它們不能通過任何計算定理被證明。這樣一來，他便給出了數學、計算和人工智能的基本極限。

自從 1990 年發表 [AC90] 以來，我經常指出：神經網絡的權值應該被看作是它的程序。一些研究者認為深度神經網絡的目標是學習觀測數據的有用的內部表示（甚至針對表徵學習舉辦了名為 ICLR 的國際學術會議），但我一直傾向於認為神經網絡的目標是學習一個計算此類表徵的程序（參數）。

在 Gödel 的啟發下，我構建輸出為其它神經網絡的程序或權值矩陣的神經網絡，甚至是可以運行和檢查自己的權值變化算法或學習算法的自參照循環神經網絡（詳見第 8 章）。

與 Gödel 的工作不同的是，這裡的通用編程語言並不是基於整數，而是基於實數值，這樣一來典型神經網絡的輸出對於其程序而言就是可微的。也就是說，一個簡單的程序生成器（高效的梯度下降過程 [BP1]）可以在程序空間中計算出一個方向，在該方向上可以發現更好的程序 [AC90]，尤其是更好的「程序生成」程序（詳見第 8 章）。我自 1989 年以來的大量工作都利用了這一事實。

19. 從無監督預訓練到純粹的監督式學習（1995-1995，,2006-2011）

正如第 1 章中所提到的，我構建的第一個非常深的學習器是 1991 年的棧式循環神經網絡，它使用無監督預訓練學習深度大於 1000 的問題。但不久之後，我們發表了更多無需任何預訓練的解決「深度學習」問題的通用方法（詳見第 3 章），通過純粹的監督式長短時記憶網絡（LSTM）來替代無監督的棧式循環神經網絡 [UN1-3]（詳見第4 章）。

也就是說，在公元 2000 年之前，無監督的預訓練已經不再那麼重要了，因為 LSTM 並不需要它了。實際上，這種從無監督預訓練到純粹的監督式學習的轉變早在 1991 年就開始了。

多年之後，在 2006 年到 2010 年間，也出現了非常類似的轉變，但這次這種轉變並不是針對於循環神經網絡（RNN），而是發生在沒那麼通用的前饋神經網絡（FNN）上。同樣的，我的小實驗室在這次轉變中也起到了核心作用。2006 年，研究者通過棧式 FNN 的無監督預訓練改進了 FNN 中的監督學習 [UN4]（詳見第 1 章）。但是在 2010 年，我們的團隊以及我傑出的羅馬尼亞博士後 Dan Ciresan [MLP1] 說明可以通過簡單的反向傳播訓練深度 FNN，而且對於重要的應用來說完全不需要無監督預訓練。

我們的系統在當時著名並廣為使用的 MNIST 手寫數字識別數據集上取得了新的最佳性能記錄 [MLP1]。這一成就是通過在高度並行的圖形處理單元 GPU 上加速傳統的 FNN 實現的。一位著名的評論員將此成為「喚醒了機器學習社區」。今天，很少有商業深度學習應用仍然使用無監督的預訓練。

我在瑞士人工智能實驗室 IDSIA 的團隊，通過將傳統的 FNN 替換為另一種名為卷積神經網絡（CNN）的神經網絡，進一步改進了上述關於 FNN 中純粹監督式深度學習的工作（2010）。自 1970 年起，研究者們便發明並不斷改進了 CNN [CNN1-4]。

我們對基於 GPU 的快速 CNN 的監督式集成（請參閱 Ciresan 等人於 2011 年發表的論文）[GPUCNN1] 是一個重大的突破（相較於早期對 CNN 進行加速的工作快了許多 [GPUCNN]），並在 2011 年 5 月 15 日至 2012 年 9 月 10 日期間連續 4 次在重要的計算機視覺競賽中奪冠 [GPUCNN5]。尤其是，我們的快速深度卷積神經網絡是第一個在手寫漢字識別競賽（ICDAR 2011）中奪冠的算法，也是在所有國際競賽中實現超越人類的視覺模式識別能力的算法（我們在 IJCNN 2011 的現場交通標誌識別大賽中獲得了第一名，誤差率為 0.56%，也是該比賽中唯一超越人類的方法，人類的平均誤差為 1.16%，本屆比賽第三名方案的誤差為 1.69%）；我們的模型也在 2012 年 5 月的 ISBI 大會舉辦的圖像分割大賽中首次奪冠，在 2012 年 9 月 10 日的 ICPR 大會舉辦的目標檢測大賽中首次奪冠，同時也是第一個在醫學癌症圖像檢測競賽中奪冠的模型 [GPUCNN5]；我們的快速 CNN 圖像掃描器比之前方法的運行速度要快 1000 倍以上 [SCAN]。

在 2011 年的一次競賽中，我們的系統將目標識別誤差率降低了一半以上，而此時距離「奇蹟之年」已經過去了 20 年 [GPUCNN2]。不久之後，其他研究者也在圖像識別競賽中也採用了類似的方法 [GPUCNN5]。

與我們的 LSTM 在 2009 年取得的結果一樣（詳見第 4 章），我們的上述結果以及 2010-2011 年在前饋神經網絡上取得的結果引起了工業界極大的興趣。例如，在2010 年，我們為全世界最大的鋼鐵製造商 Arcelor Mittal 提出了我們基於 GPU 的深度快速網絡，從而大大改進了鋼鐵缺陷檢測技術 [ST]。這可能是深度學習技術在重工業領域取得的第一個重大突破。如今，大多數人工智能初創公司和主要的 IT 公司以及其它著名的公司都在使用這種監督式的快速 GPU 神經網絡。

20. 令人驚訝的關於人工智能的 FKI 系列技術報告（1990 年代）

許多後來廣為使用的「現代」深度學習基本思想都是我們在「奇蹟之年」（1990-1991）於慕尼黑工業大學（TU Munich）發表的（那時柏林牆剛剛倒塌不久）：無監督或自監督學習、數據生成對抗網絡（用於人工好奇心和相關的概念，詳見第 5 章；也可以參閱本文第 7 章介紹的我在科羅拉多大學的後續工作）以及深度學習的根本性問題（梯度彌散/爆炸，詳見第 3 章）機器解決方案：（1）用於非常深的（循環）神經網絡（詳見第 1 章）的無監督預訓練；（2）催生 LSTM 的基本思路（詳見第 4 章和第 8 章）。

當時，我們還提出了序列注意力學習神經網絡，這是另一種已經變得非常流行的概念（關於觀測空間的「硬」注意力機制和潛在空間的「軟」注意力機制的介紹都請參閱第 9 章）；還有學著對另一個神經網絡的快速權值、甚至是它們自己的權值進行編程的神經網絡（詳見第 8 章），以及上述提到的所有其它技術：從分層強化學習（詳見第十章）到使用循環神經世界模型進行規劃（詳見第 11 章），等等。

當然，要想將這些算法商業化運行，人們不得不等待更快的計算機的誕生。然而，直到 2010 年代中期，我們的產品被蘋果、谷歌、Facebook、亞馬遜、三星、百度、微軟等巨頭所使用，每天被數十億臺電腦使用數十億次以上 [DL4]。

上述大多數研究結果首次發表在慕尼黑工業大學的 FKI 系列科技報告中，我為其手動繪製了許多示意圖，本文展示了其中的一部分（詳見第 10、11、13、18章）。現在，FKI 系列報告在人工智能的歷史上起到了重要的作用，它介紹了許多重要的概念：

用於非常深的神經網絡的無監督預訓練（FKI-148-91 [UN0]，詳見第 1 章）
將一個神經網絡壓縮/蒸餾成另一個（FKI-148-91 [UN0]，詳見第 2 章）
長短期記憶網絡（FKI-207-95 [LSTM0]，詳見第 4、8 章）
通過學習進度最大化的神經網絡實現好奇心（FKI-149-91 [AC91]，詳見第 6 章）
端到端快速權重和學著對其它神經網絡編程的神經網絡（像傳統計算機一樣，將神經網路的存儲和控制分離開來，FKI-147-91 [FAST0]，詳見第 8 章）
通過神經網絡學習順序注意力（FKI-128-90 [ATT0]，詳見第 9 章）
將目標定義命令作為額外的神經網絡輸入（FKI-128-90 [ATT0]，FKI-129-90 [HRL0]，詳見第 12章）
分層強化學習（FKI-129-90 [HRL0]，詳見第 10 章）

用網絡調整網絡/合成梯度（FKI-125-90 [NAN2]，詳見第 15 章）
用於在線循環神經網絡的三次梯度計算也在 FKI-151-91 [CUB1] 中被提出，詳見第 16 章。

值得一提的是，報告 FKI-126-90 [AC90]還介紹了大量現在被廣為使用的概念：

通過循環世界模型進行規劃（詳見第 11 章）
將高維獎勵信號作為額外的神經網絡輸入/通用值函數（詳見第 13 章）
確定性策略梯度（詳見第 14 章）
同時滿足生成式和對抗性的神經網絡（詳見第5 章和第 7 章）
人工好奇心及相關概念。

後來，舉世矚目的 FKI 科技報告自 1990 年代起介紹了一系列大大壓縮神經網絡從而提升其泛化能力的方法 [KO0][FM]。

FKI 報告發布不久之後就通過了同行評審。例如，在1992 年，我與偉大的 David MacKay 進行了一次有趣的競賽，看看誰能在一年之內在「Neural Computation」（當時是我們這個領域的頂級期刊）上發表更多的文章。到 1992 年底，我們都發表了 4 篇文章，但最終還是 David 贏了，因為他發表的論文（大多數都與用於神經網絡的貝葉斯方法有關）比我長得多。

免責聲明：當然，從科學層面上來說，像發表的論文數量和 H 指數這樣的指標很蒼白——唯一真正重要的是研究的質量 [NAT1]。

21. 結語

放眼於以英語為主導的學術圈，我們往往不能看清一個事實[DLC]——深度學習是在官方語言不是英語的地方被髮明的：

這個研究領域始於 1965 年的烏克蘭（當時還屬於蘇聯），那時誕生了第一個具有任意深度的、可以學習的神經網絡 [DEEP1-2]（詳見第 1 章）；
五年後，現代反向傳播方法在蘇聯「隔壁的」芬蘭出現（1970）[BP1]（詳見第 0 章）；
基本的深度卷積神經網絡（現在被廣泛使用）架構是在 1970 年代的日本被髮明的，到了 1987 年，卷積網絡與權值共享和反向傳播相結合。
無監督或自監督的對抗性網絡（兩個網絡在一個用於人工好奇心的極小極大博弈中對抗）起源於慕尼黑（1990，詳見第 5 章），慕尼黑也是 1980 年代第一批真正的自動駕駛汽車的誕生地，1994 年進行了高速公路交通實驗。
基於反向傳播的深度學習的根本性問題也在慕尼黑被發現（1991，詳見第 3 章）[VAN1]。第一個克服這個問題的「現代」深度學習網絡也是如此，它們通過無監督的預訓練 [UN1-2]（1991，詳見第 1 章）和長短時記憶網絡 [LSTM0-7] 克服這個問題，LSTM 可以說是商業化程度最高的人工智能成果 [AV1]（第 4 章）。
LSTM 在瑞士得到了進一步發展，這裡也誕生了第一個在圖像識別競賽獲勝的基於 GPU 的 CNN（2011，詳見第 19 章——現在計算機視覺領域的所有研究者都在使用這個方法）、第一個在視覺模式識別中超越人類的神經網絡（2011），以及第一個有超過 100 層、非常深的前饋神經網絡 [HW1]（詳見第 4 章）。
大約在 1990 年，瑞士也成為了萬維網的發源地，這使得人工智能可以在全世界範圍內被迅速傳播。截至 2017 年，瑞士在人工智能研究領域的引用影響力仍然居於世界前列——儘管中國現在是人工智能論文產出最多的國家 [THE17]。

當然，深度學習只是人工智能研究的一小部分，它主要侷限於被動的模式識別。我們將其視為通過元學習或「learning to Learn」的學習算法（於 1987 年發表，研究更通用的人工智能的副產品，具有人工好奇心和創造力的系統定義了自己的問題並設定自己的目標（1990），演化計算（1987）、RNN 演化、壓縮網絡搜索、在真實部分可觀測的環境下（此時用於棋類遊戲的傳統強化學習不起作用，1989）的智能體的強化學習、通用人工智能、如 Gödel Machine 這樣的最優通用學習機（2003 至今）、對運行在通用計算機上的程序的最優搜索等。

當然，人工智能本身只是更宏大的科學追求的一部分，它將宇宙從簡單的初始條件推向越來越深不可測的複雜性 [SA17]。最後，即使這個令人敬畏的過程可能也只是所有邏輯上可能存在的宇宙中更宏大、更有效的計算中的滄海一粟 [ALL1][ALL2][ALL3]。

注：本文中涉及到的所有參考文獻詳見原文：http://people.idsia.ch/~juergen/deep-learning-miraculous-year-1990-1991.html#NAN1

分享到:

閱讀更多 學習機器學習 的文章

關鍵字: 母語瑞典歷史

深度學習—神經網絡之神經元模型

如何看待人工智能、機器學習、深度學習、神經網絡？

李宏毅-《深度學習/機器學習2020》中文視頻課程及ppt分享

零基礎瞭解人工智能、機器學習、深度學習、大數據的關係

“深度學習+”這個概念是如何產生？

02.10 深度學習-強化學習-圖神經網絡-NLP等AI課程超級大列表-最新版

深度學習-強化學習-圖神經網絡-NLP等AI課程超級大列表-最新版

人工智能、機器學習、深度學習三者區別

如何拯救無法「深度學習」的製造業，2019工業智能靈魂10問

01.10 如何拯救無法「深度學習」的製造業，2019工業智能靈魂10問

01.09 “深度學習”這十年：52篇大神級論文再現AI榮與光

12.25 1小時掌握Google圖像語義分割模型，更有《深度學習》PDF免費送

《深度學習，統計學習，數學基礎》人工智能算法工程師手冊

機器學習、深度學習……人工智能那些名詞你知道幾個？

10.23 推薦系統中的前沿技術研究與落地：深度學習、AutoML與強化學習

人工智能、機器學習、深度學習：區別何在？

“深度學習”，“人工神經網絡”，你知道二者之間的關係嗎？

「深度學習」 UI2CODE系列文章｜如何批量製造高質量樣本

深度學習：總結的幾個信息理論概念

深度學習：一種特定類型的機器學習

上採樣、上池化、反捲積的一點理解

【深度學習】從神經元到RNN、CNN、深度學習來理解理解神經網絡

深度學習：人工智能領域的魔術師

理解神經網絡：從神經元到RNN、CNN、深度學習

「深度學習卷積神經網絡」深不可測的殘差網絡ResNet模型

卷積神經網絡-深度學習

深度學習：一種觀察細胞的超級方式

深度學習、機器學習與NLP的前世今生

機器學習 vs. 深度學習

深度解析人工智慧——機器學習、神經網絡、深度學習

人工智慧學習總結——三個分支：認知、機器學習、深度學習

快速指南：了解「深度學習」的炒作

深度學習：人工智慧在自動駕駛中的應用

AI在網絡安全領域的應用：機器學習 VS. 深度學習

深度學習：透過神經網絡的內在靈魂與柏拉圖的哲學理念

CVPR 2018 中國論文分享會之「深度學習」

帶你認識機器人起名的核心技術“深度學習”的常見的應用

ICRA 2018論文全概覽：接收率40%，深度學習

AI的「深度學習」正在改變世界，改變你

04.24 AI的“深度學習”正在改變世界，改變你

「學道分享-深度學習」資訊時代，你價值幾何？

04.05 帶你讀懂機器學習、深度學習、統計與概率論的區別，一文釐清！

03.29 機器學習、深度學習、和AI算法可以在網絡安全中做什麼？

技術文章——《深度學習--人工智慧更懂你》

09.27 易道博識品牌升級：聚焦機器視覺，助力各行業智能化、自動化發展

小米太無恥了。

小米高管不只口嗨了，在國內拳打友商，在國外卻開始下跪了。下一步，我猜小米會喊，高通爸爸，人家愛死你了，人家已經五體投地了喲。

蹭熱點！說說我理解的手機包裝盒事件。

今早醒來刷頭條，發現大批米系自媒體鋪天蓋地發文嘲諷華為系自媒體，忍不住好奇瞭解了一下情況，原來是剛發佈的一加8 海外版手機的手機包裝盒上面印了一句話:with easy access to the Google apps you use most.而這句話也印在前段時間發佈的小

蘋果公司正式發佈iPhone SE二代手機

新品名為“iPhoneSE”，擁有跟iPhone 8相似的外觀，搭載了蘋果當前最新的A13仿生芯片，具備IP67級別防水防塵能力，配備4.7英寸LCD材質屏幕，支持原彩顯示，配備了Touch ID指紋識別。

華為河圖、麒麟芯片和鴻蒙OS三駕馬車並行？華為生態建設佈局深遠

至於受很多人關注的華為河圖全面落地問題，官方有消息稱，2020年第二季度會提供100個華為河圖測試點，測試點到第四季度會增加至1000個，測試覆蓋空間包括智慧園區、旅遊景點、高鐵站和機場等。

小米高管表示，四千毫安時 5G 手機，和三千多毫安時 4G 手機一樣

小米科技高管盧偉冰在近日表示，5G旗艦手機如果5G網絡全開，功耗會比4G手機高20%，4000mAh的5G手機大約等於4G手機的3200mAH；今年Redmi堅持把5G手機的容量控制在4500mAh以上，也是考慮到5G網絡耗電大的原因，今年很多5G智能手機均採用大電池的設計。

5G畫風變了：麒麟985落地首跑，榮耀坐上開往高端的「地鐵」

榮耀30Pro/30 Pro+同時搭載麒麟990 5G SoC，相應的其它配置更高：Wi-Fi6+，支持紅外遙控，USB 3.0 Type-C接口。

旗艦手機標配Wifi 6 換Wifi 6路由器的時機到了嗎？

現在，家庭寬帶都在500M左右，大部分手機也不支持Wifi6標準，換Wifi 6無線路由器有點早，因為換了Wifi 6無線路由器網速也不會變快。

2020年5G手機賣不動？繼蘋果砍單25%之後，華為小米紛紛跟砍？

都說蘋果手機賣不動了，可我看想買iPhone手機的人還是那麼多，不然之前蘋果公司怎麼會限購？數據顯示，3月份在國內的 iPhone 銷量比 2 月份激增 416%，達到約 250 萬部。

幹翻華為P40系列榮耀30也玩中

而今天的華為發佈會上，榮耀30、30 Pro、30 Pro +3個版本中、大、特大杯齊亮相，又一片全新5G SOC，麒麟985也要登場。

程序員辭互聯網工作，跨行傳統上市公司，上班第1天就蒙了

原來男子是從事互聯網工作，後面覺得是互聯網寒冬來了，就堅決辭去互聯網工作，跨行選擇了一個教育傳統上市公司，可是第1天上班就蒙了，公司讓做的活兒太死板了，沒有發揮空間，同事一點都不友善，領導不放權，而且管理線超級單一，氛圍一點都不一樣，所以想離職。

蘋果發佈新款iPhoneSE，3299元起售

北京時間4月15日晚，蘋果正式發佈了新款iPhone SE，搭載了A13仿生芯片，支持最新的iOS 13系統，支持 18W快充，也支持Qi無線充電。SE機型蘋果到目前為止只發布了兩款，這是iPhone產品體系裡小屏和低價的典型機器。

我很糾結：我究竟適不適合做亞馬遜電商？看了這三條你就知道了

請仔細閱讀，關於跨境電商你想知道的都在這兒

政府對於跨境電商行業的大力支持給咱們廣大跨境電商賣家吃了一顆“定心丸”。我們所做的跨境電商事業在一定程度上不再是為個人謀利益，而是成為了中國產品走向世界，為國家賺取外匯的主力軍。

騙子手段太“精明”：商家賠了貨物又賠款，亞馬遜平臺騙術大揭祕

在開始文章的乾貨分享之前，先給大家講一個商家被用戶勒索的案例。有一位朋友剛剛加入亞馬遜跨境電商平臺兩個多月，在這期間有位美國用戶在他店鋪裡面購買了一個毛巾架。

做跨境電商這麼多年，今天才知道給國外客戶發文件原來這麼簡單

做過跨境電商朋友肯定知道，很多國外客戶對於有些商品看不懂說明書，想索要商品使用視頻教程，畢竟視頻信息量大，容易理解和快速上手。

值得收藏！三類賣家三種選品方案，總有適合你的一個……

網上很多所謂的“大佬”喜歡吹噓用某某工具就可以迅速選品效率，迅速取得很高效率等等，其實這類人就是在賣軟件，收培訓費用…

萬萬沒想到！亞馬遜平臺上面賣床單竟營收一個億！你還在等什麼？

做店鋪這麼多年，今天才知道我的listing突然被封，竟是因為……

亞馬遜小白看過來！請採納這些：亞馬遜選品和運營的小建議

亞馬遜賣家如何爆單？跨境精細化運營攻略必看

不收保證金、入住費、年費，還免三個月佣金，我也想入駐這個平臺

咱們今天不說主打歐美市場的亞馬遜，只談一下以東南亞市場為主的Shopee。好多人都聽說過，但是沒有真正瞭解過，好多人想加入Shopee但是顧慮重重，今天我來給大家普及一下關於Shopee小秘密。

馬雲終於要辭職了，留下的話句句觸動人心

去年，在教師節這天，阿里巴巴集團創始人馬雲今天公開信宣佈：一年後的阿里巴巴20週年之際，即2019年9月10日，也就是今天，他將不再擔任集團董事局主席，卻留下句句觸動心靈的話！！

等等，明年5G手機將迎來大降價

11月26日下午，聯發科技（MediaTek）在深圳舉辦“聯發科技 5G方案發布暨全球合作伙伴大會”，正式發佈了全新的5G新芯片品牌——“天璣”，同時帶來了首款集成式旗艦級5G移動平臺——天璣1000。

微信公開課PRO版2019正在進行時，往屆各自都有什麼黑科技

微信公開課pro版2019，為期兩天微信大會正在廣州火熱進行中，本次會議主題為：同行WITHUS。微信這一款超級應用，已經深入到我們生活的方方面面，所以這48小時的未來盛宴必將吸引無數眼球。

推出「信任分」升級「閃購」，美團本地生活這盤棋有多大？

小海按：美團的超級App夢想更近了？Tech星球文 | 馬微冰陳橋輝頭圖 | IC Photo王興曾說，“太多人關注邊界，而不關注核心。”

5G我們超越了6G我們也將領先! 美國為什麼會害怕失去5G領導地位呢

而且在我們國內和美企中，有相當一部分覺得我們研發不了5G，更特說超越他們了。由於，我們在科技領域一直是，裝備一代，研發一代，探索一代。

界讀｜華為：幫助英國共渡疫情難關，無端批評令英國蒙受損失

前段時間，英國首相呼籲員工在家辦公的第二天，英國網絡就出現大面積崩潰現象，不僅無法正常上網，而且電話也不能打、短信也不能發，給用戶造成了很大的困擾。

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？

為什麼華為今天可以傲視群雄，在世界上立於不敗之地？因為五年內沒有人能超過整個5G領域，所以美國人無法超越，為什麼？

血戰「在線辦公」，阿里、騰訊、字節、華為的底牌與大殺器

小海按：前端殺手級應用，後端雲服務，在線辦公「四小龍」之戰開啟。本來，在線辦公更多的是阿里巴巴的主場。

2020年最強拍照旗艦來了華為P40系列多項業界首創香！

原來華為P40Pro+在上一代P30 Pro潛望式鏡頭橫置長焦鏡頭模組和感光器件基礎之上，進一步採用全新的多反射潛望式光路摺疊技術，實現5次反射光路，光程比上一代潛望式長焦提升178%。

今天聊一聊直播

今天聊一聊直播突然談到這個話題，是因為後知後覺的我，突然發現幾乎所有大互聯網公司都進軍了網絡直播行業，或者正在準備進軍直播領域。

通過直播賺錢不容易，既要豁得出去，又要端得起來

今天咱們繼續聊一聊直播吧當下，像頭條、網易、百度等公司，看上去和直播八竿子打不著的公司，也開始涉足直播了。

AI和自動化技術聯手，最終會讓60%的工人失去現有的飯碗。

並非危言聳聽，AI和自動化結合，勢必會把數十億人類踢出勞動力市場，數量巨大的失業工人，將會構成一個規模龐大的新階級。AI最終會讓60%的工人失去現有的飯碗。

這個網還能不能好好上了？今日全球IPv4地址正式耗盡

長期以來，一直令人擔心的IPv4地址耗盡的問題，今天這一刻終於發生——所有43億個IPv4地址已分配完畢，這意味著沒有更多的IPv4地址可以分配給ISP和其他大型網絡基礎設施提供商。

12306系統不行？內行人告訴你它有多牛，阿里騰訊高手去了也膜拜

很多人認為12306系統很不好，之前我也是這麼認為的，因為我覺得像雙十一這麼大流量，阿里都能承受住，為什麼12306不行，這其實是誤解，12306擁有著神一般的架構設計，平時的壓力比淘寶大的多。

有內幕？美國防部授與微軟百億雲合同，亞馬遜不滿發起訴訟

據路透社消息，10月25日，美國防部將高達100億美元的十年期戰略合同授予微軟公司，這一舉動引起亞馬遜的不滿。

未來之芯--RISC-V總部從美國遷往瑞士，華為、阿里是其成員

北京時間26日消息，國際開源芯片技術組織RISC-V基金會週一宣佈，由於擔心美國的貿易限制，計劃將總部從美國特拉華州遷往瑞士。該基金會首席執行官卡利絲塔-雷蒙德（Calista Redmond）表示，希望確保美國以外的大學、政府和企業能夠幫助開發其開源技術。

神話還能繼續嗎？幾度過山車，比特幣半年來首次跌破7000美元

比特幣價格今年如同坐上過山車，年初的3000美元到最高13861.9美元，今天跌破7000美元，算是這半年來的最低點了。說起比特幣，給人印象最深刻的，莫過於2017年末到2018年初的暴漲了吧。

劉強東卸任後，突然宣佈一個“好消息”，讓馬雲措手不及！

蘋果的瘋狂其實從未停止，AirPower或將重新啟航

可是，蘋果事實上一直都在推動終端產品進入全面無線時代，所以他們是不太可能在真正意義上放棄這款產品。有外媒稱，蘋果目前正準備重新啟動AirPower項目。

曾保護近4億中國人的電腦，卻因得罪阿里、騰訊，慘遭市場淘汰

曾保護近4億中國人的電腦，卻因得罪阿里、騰訊，慘遭市場淘汰隨著網絡的不斷髮展，如何確保網絡信息安全成為人們十分重視的問題。

互聯網流量需求增大希臘民眾“宅生活”考驗網速

英國諮詢公司Tech4i2報告指出，在疫情期間，希臘的互聯網流量需求至少增長50%，但網速僅下降1.2%，而在大多數歐洲國家，網速平均下降了5%-7%。

互聯網科技企業，傳統辦公模式該走向何處?

　　紐約，處於美國疫情震中的城市，工作模式大多是使用公司發放的電腦進行遠程辦公，而在這之前，部分互聯網企業本來默認每週三為在家辦公日，所以大家對在線辦公可以說駕輕就熟。

微信又悄悄上線一新功能～網友卻開始擔心

備註後的群聊名稱僅自己可見往後再也不用為分清亂糟糟的微信群聊而困擾不過從目前來看只有iOS端上線了這一新功能安卓用戶還需要再等等並且此次更新為後臺更新無需到AppStore更新即可看到這個新功能該功能上線後網友們紛紛站隊但也有網友視野開闊擔心起另一件事對於微信新功能群備註你覺得實

正式確認！孫正義退出市值5959億阿里，20年與馬雲成就彼此

文：小娜說到孫正義這個名字，我們很多人都知道他是日本軟銀集團的創始人兼總裁，但他除此之外也有另外的身份，那就是阿里巴巴最大的董事之一。阿里之所以成為今天的阿里，與孫正義的投資是分不開的。當時，馬雲和孫正義僅僅交談了五分鐘，孫正義當即就決定投資阿里，而且一下就投資2000萬美元。

科技添柴“非接觸經濟”升溫

新華社記者王全超攝中國同拉美和加勒比國家舉行視頻工作會議，就新冠肺炎疫情防控開展交流。亞歷山大·培尼亞攝在中國科學技術大學附屬第一醫院，乘客用“無接觸電梯按鈕”操作電梯。

好像在哪見過？華為nova7官宣餘承東:何必只有一點點

全新iPhoneSE根據此前爆料，此次華為nova7系列將有nova7 SE、nova7和nova7 Pro三個版本，可能會採用“麒麟985+麒麟990”或“麒麟820+麒麟985+麒麟990”兩種芯片組合。

行業紅利、資本湧入，疫情後的在線教育聚師網如何“涅槃”

2018年，線下培訓機構受到了相關部門政策的影響，整體發展勢頭趨降，然而市場上對於教育的需求卻在不斷增加，於是，大量學員開始把需求放到了線上，其中，職業教育在這方面的變化尤其明顯。

數字貨幣真的來了？首吃螃蟹者傳出，碰一碰功能露臉

蘇州相城區政府相關人士對此未予置評，區金融局人士表示“不便答覆”，其他多個當地機關單位稱尚不知情，央行蘇州市中心支行表示“以總行口徑為準”，央行總行方面未予確認。新京報記者程維妙陳鵬編輯嶽彩周校對薛京寧

實例 | 200 SMART運動控制基本指令詳解

C_Dir:表示電機的當前方向信號狀態，0 = 正向 1 = 反向。 START:觸發開始發脈衝信號，必須要在運動軸空閒時發送一次信號，必須用邊沿觸發。