「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

作者 | Jürgen Schmidhuber

編譯 | MrBear

毫無疑問,深度學習是影響當今世界科技發展的最重要的技術之一。2018 年,深度學習「三巨頭」因其在這個領域的卓越貢獻榮獲圖靈獎。在人們感慨人工智能迎來春天的同時,也有人為「LSTM 之父」Jürgen Schmidhuber 未能分享這份榮譽而感到遺憾。事實上,除了 LSTM 之外,深度神經網絡、卷積神經網絡、無監督學習、自監督學習、元學習、知識蒸餾、對抗生成網絡等重要技術的誕生與 Jürgen 都有著千絲萬縷的聯繫。

近日,Jürgen 親自撰文介紹了自己從上世紀90年代起在深度學習領域所做出的巨大貢獻。正如 Jürgen 所言,對於科學研究來說,「唯一真正重要的是研究的質量」。也許多年以後,當人們回顧這段歷史,我們會意識到,最重要的並不是誰發明了某項技術,而是技術本身對於人類文明發展所具有的無上價值!

Jürgen 在洋洋灑灑寫了近兩萬字之後,總結道:「放眼於以英語為主導的學術圈,我們往往不能看清一個事實——深度學習是在官方語言不是英語的地方被髮明的。」對我們中國(當前人工智能研究領域最大非英語為母語地區)的人們來說,似乎尤其應當認識到這點。

Jürgen 還提到:

深度學習只是人工智能研究的一小部分,它主要侷限於被動的模式識別。……而人工智能本身也只是更宏大的科學追求的一部分,它將宇宙從簡單的初始條件推向越來越深不可測的複雜性。最後,即使這個令人敬畏的過程可能也只是所有邏輯上可能存在的宇宙中更宏大、更有效的計算中的滄海一粟。

AI 科技評論將 Jürgen 撰寫的這篇文章編譯了下來,以饗讀者。由於文章較長,且多為歷史,如果您對過往並不感興趣,也可以只看目錄,然後迅速翻到最後的「結論」部分。


Jürgen :我們團隊的深度學習(DL)神經網絡(NN)技術推動了模式識別和機器學習的巨大變革,如今,這些技術被學術界和工業界廣泛應用。到 2020 年,我們將慶祝這場革命背後早在 30 年前在不到 12 個月的時間裡相繼發表出來的許多基本思想,那一年正是 1990-1991 年,是深度學習在慕尼黑工業大學誕生的「奇蹟之年」!

當時,很少有人對這一研究領域感興趣,但是四分之一個世紀過去了,基於這些思想設計的神經網絡出現在了包括智能手機在內的逾 3 億臺設備上,每天會被使用數十億次,消耗著這個世界上相當大一部分的計算資源。

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

下面,本文將總結深度學習領域在 1990-1991 年究竟發生了什麼重要的事件,這不僅為行外人士提供了一個對該領域宏觀的介紹,同時也為那些對該領域十分了解的專家提供了評估原始資料來源的參考。我們還提到了一些後期工作,這些工作進一步發展了 在 1990-1991 年(在慕尼黑工業大學、瑞典人工智能實驗室 IDSIA,以及其它地方)誕生的思想,本文還介紹了其他人的一些相關工作。本文的目錄如下:

0. 人工神經網絡深度學習的研究背景

1. 第一個基於無監督預訓練的深度學習器(1991)

2. 對一個網絡進行壓縮/蒸餾,用於一個網絡(1991)

3. 根本性的深度學習問題(梯度彌散/爆炸,1991)

4. 長短時記憶網絡(LSTM):有監督的深度學習(基本思想誕生於 1991 年)

5. 通過對抗生成神經網絡實現人工好奇心(1990)

6. 通過最大化學習進度的神經網絡實現人工好奇心(1990)

7. 用於無監督數據建模的對抗性網絡(1991)

8. 端到端的可微「快速權值」:能學著對神經網絡進行編程的網絡(1991)

9. 通過神經網絡學習順序注意力機制(1990)

10. 分層強化學習(1990)

11. 通過循環神經世界模型規劃並進行強化學習(1990)

12. 將目標定義命令作為額外的神經網絡輸入(1990)

13. 作為神經網絡輸入/通用值函數的高維獎勵信號(1990)

14. 確定性的策略梯度(1990)

15. 用網絡調整網絡/合成梯度(1990)

16. 用於在線循環神經網絡的時間複雜度為 O(n3) 的梯度計算

17. 深度神經「熱交換器」(1990)

18. 我的博士畢業論文(1991)

19. 從無監督預訓練到純粹的監督式學習(1995-1995,,2006-2011)

20. 令人驚訝的關於人工智能的 FKI 系列技術報告(1990 年代)

21. 結語


0. 人工神經網絡深度學習的研究背景

人類大腦擁有約 1,000 億個神經元,平均每個神經元都會與其餘的 10,000 個神經元相連。在這些神經元中,有一些是為其它神經元提供數據(聲音、視覺、觸覺、疼痛、飢餓)的輸入神經元。另一些神經元則是控制肌肉的輸出神經元。而大多數神經元則隱藏在輸入和輸出之間的處理過程中,這也正是我們進行思考的地方。顯然,大腦是通過改變連接的強度或權重進行學習的,這樣可以決定神經元之間互相影響的強度,而這種機制似乎也對人們一生中積累的經驗進行了編碼。

我們的人工神經網絡(NN)的工作原理與上述人類的神經系統相類似,它能夠比先前的各種方法更好地進行學習,從而完成語音識別、手寫數字識別或視頻識別,最小化損失、最大化受益,甚至自動駕駛汽車等任務[DL1][DL4]。

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

大多數現代的商業應用都重點關注讓神經網絡能夠模仿人類「老師」的監督學習[DL1][DL4]。經過了多次試驗,Seppo Linnainmaa 在 1970 年提出了一種基於梯度的計算方法[BP1],我們現在通常將其稱為反向傳播算法或自動微分的逆序模式,該算法被用來逐漸減弱某些神經網絡連接,同時增強其它的連接,從而使神經網絡與帶有監督信號的「老師」的行為越來越相似(相關變體見[BPA][BPB][BP2])。

如今,那些最為強大的神經網絡往往具有很深的結構,也就是說,他們有許多層神經元或若干後續的計算階段。然而,在 1980 年代,基於梯度的訓練方法並不適用於深度神經網絡,僅在淺層神經網絡上有較好的表現[DL1][DL2]。

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

這種「深度學習問題」在循環神經網絡(RNN,於 1945 年首次被非正式地提出[MC43],於 1956 年被正式提出[K56]——相關變體見[PDA2])上體現的最明顯。循環神經網絡與人類大腦相類似,但與限制更多的前饋神經網絡(FNN)不同,RNN 具有反饋連接。這種結構使 RNN 成為了功能強大、通用性強,可以進行並行計算的計算模型,它能夠處理任意長度的輸入序列(例如,語音或視頻)。

RNN 基本上可以實現所有可以在你的筆記本電腦上運行的程序。如果我們想要構建一個通用人工智能系統,則其底層的計算基礎必然是類似於 RNN 的結構,因為 FNN 從根本上存在不足。RNN 與 FNN 的關係,就好比通用計算機和專用計算器的關係。

尤其是,不同於 FNN,RNN 基本上可以處理任意深度的問題[DL1]。然而,在 1980 年代,早期的 RNN 實際上並不能學習較深的問題。我希望克服這一缺點,實現基於 RNN 的「通用深度學習」。


1. 第一個基於無監督預訓練的深度學習器(1991)

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

為了解決上述的「深度學習問題」,我首先想到了通過對一個層次化 RNN 的無監督預訓練促進深度 RNN 中的監督學習(1991),從而實現了第一個「非常深的學習器」,我們將其稱為「神經序列組塊」(Neural Sequence Chunker)[UN0],或稱「神經歷史壓縮器」[UN1]。每個更高層的 RNN 會使用預測性編碼技術最小化下層 RNN 中的數據表徵的描述長度(或負對數概率)。其中,預測性編碼技術試圖在給定先前的輸入的情況下,預測接下來的數據流中的下一個輸入,並且只在存在不可預測的數據時更新神經激活值,因此此時只存儲未知的東西。換句話說,神經序列組塊會學著壓縮數據流,從而減緩「深度學習問題」,使其能夠通過標準的反向傳播方法求解。

儘管那時的計算機要比現在同等價位的計算機運算得慢一百萬倍,但是截止到 1993 年,我的方法可以解決之前無法解決的、深度大於 1000[UN2] 的「非常深的深度學習」(需要超過 1000 個後續的計算步驟,步驟越多則學習的深度越深)。在 1993 年,我們還發布了一個「連續」版本的神經歷史壓縮器[UN3]。

據我所知,序列組塊[UN0]同時還是第一個由在不同(自組織的)時間尺度上運行的 RNN構成的系統(實際上,我還有一種方法,可以將所有這些 RNN 「蒸餾」到一個很深的、在單個時間尺度上運行的 RNN 中——詳見本文第 2 章)。幾年之後,其他的研究者也開始在多時間尺度 RNN 的研究領域發表相關工作(例如,[HB96],相關的工作還有 Clockwork RNN[CW])。

在這項工作發表十多年後[UN1],一種針對限制更強的前饋神經網絡的類似方法被提出,這種方法通過堆疊的前饋神經網絡的無監督預訓練使監督訓練的性能得到了提升,該方法被稱為深度置信網絡(DBN)[UN4]。在這篇於 2006 年發表的論文中,作者的證明與我在 1990 年代初期為我的堆疊式 RNN 所使用的證明幾乎如出一轍:每個更高的層試圖縮短下層中數據表徵的描述長度(或負對數概率)。

在上述的基於無監督預訓練的深度學習器被提出後不久,「深度學習問題」(詳見第 3 章)也通過我們的純監督 LSTM 被解決了(詳見第四章)。後來,在 2006 到 2011 年間,我的實驗室又推動了一次非常相似的從無監督預訓練到純監督學習的轉變。在「奇蹟之年」過去 20 年後,這一次,通用性較低的前饋神經網絡(FNN)催生了在癌症檢測和許多其它問題上的革命性應用,而不是循環神經網絡(RNN)。詳細情況見第十九章。

當然,前饋神經網絡深度學習的起源要追溯到更早的時期。1965 年,Ivakhnenko 和 Lapa 為具有任意層數的深度多層感知機發布了第一個通用可行的學習算法[DEEP1]。例如,Ivakhnenko 於 1971 年發表的論文[DEEP2] 就已經提出了一個 8 層的深度學習網絡,該網絡採用了一種高被引方法[DL2] 進行訓練,這種方法直到 2000 年後仍然被廣泛使用。但是,與 Ivakhnenko 與其後繼者在 1970 年代和 1980 年代提出的深度 FNN 不同,我們的深度 RNN 具有通用的並行序列計算架構[UN0-3]。

直到 1990 年代初期,大多數神經網絡方面的研究仍然僅限於包含 10 個以內的後續計算步驟的非常淺的網絡,而我們的方法已經可以使包含 1,000 個這樣的後續計算步驟的網絡正常工作。我想說的是,正是我們讓神經網絡變得這麼深(尤其是 RNN,它是所有網絡中最深、功能最強大的)。


2. 對一個網絡進行壓縮/蒸餾,用於一個網絡(1991)

在我們上面提到的關於神經歷史壓縮器(第 1 章)的論文中,還介紹了一種將網絡的層次結構(較高層網絡相較於較低層網絡,往往在慢得多的自組織時間尺度上運行)壓縮到一個深度 RNN[UN1] 中,從而在儘管存在第 0 章提到的障礙的情況下,學著解決非常深的網絡的學習問題。這部分的內容在參考文獻 [UN1][DIST1] 的第 4 章有介紹,它們討論了「有意識」的組塊和「下意識」的自動化,介紹了將一個神經網絡的知識遷移到另一個神經網絡上的通用原則。

假設有一個「老師」神經網絡和一個「學生」神經網絡,「老師」神經網絡已經學會了對在給定其它數據的情況下,預測數據(的條件期望)。那麼我們可以通過訓練「學生」神經網絡模仿「老師」神經網絡的行為,將「老師」神經網絡的知識壓縮到一個「學生」神經網絡中(同時重新訓練學生神經網絡去完成之前學過的技能,從而避免它遺忘這些技能)。

我將這種操作稱作將一個網絡的行為「摺疊」或「壓縮」到另一個網絡中。如今,這種方法被廣泛使用,有的研究者(例如,Hinton)也將它稱為將「老師」網絡的行為「蒸餾」[DIST2] 或「克隆」到一個「學生」網絡中。


3. 根本性的深度學習問題(梯度彌散/爆炸,1991)

在介紹背景知識的第 0 章中,我們指出深度學習是很困難的。但是為什麼它很困難呢?我喜歡將其中的一個主要原因稱為「根本性的深度學習問題」,而我的第一個學生 Sepp Hochreiter 於 1991 年在他的畢業論文 [VAN1] 中提出了這個問題,並且對其進行了分析。

作為這篇論文的一部分,Sepp 實現了上面(第 1 章)介紹的「神經歷史壓縮器」和其它基於 RNN 的系統(第 11 章)。除此之外,他還做了更多的工作——他的工作正式說明了,深度神經網絡受困於如今非常著名的「梯度彌散」或「梯度爆炸」問題:在典型的深度網絡或循環網絡中,反向傳播的誤差信號要麼迅速衰減,要麼增長得超出界限。在這兩種情況下,學習都會失敗。這樣的分析催生了如今的 LSTM 的基本原理 (詳見第 4 章)。

(在 1994 年,還有其他研究者的研究成果 [VAN2] 和 Sepp 於 1991 年發表的有關梯度彌散的研究成果 [VAN1] 基本一模一樣。甚至在公開發表了論文 [VAN3] 之後,本文參考文獻 [VAN2] 的第一作者還發表了一系列論文(例如 [VAN4]),並且只引用了他自己在 1994 年發表的論文,但對 Sepp 的原創性工作隻字不提。)

請注意,在 Sepp 的論文指出那些深度神經網絡中反向傳播的問題之前 20 年,有一位名字相似的學生(Seppo Linnanimaa)於 1970 年在他的論文中發表了現代的反向傳播算法,或稱自動微分的逆向模式[BP1]。


4. 長短時記憶網絡(LSTM):有監督的深度學習

長短時記憶虛幻神經網絡(LSTM)[LSTM1-6] 克服了 Sepp 在其 1991 年發表的畢業論文 [VAN1](詳見第 3 章) 中提出的根本性的深度學習問題。我認為這是機器學習歷史上最重要的論文之一。它還通過我們在 1995 年發佈的技術報告 [LSTM0] 中所稱的 LSTM 的基本原理(例如,恆定誤差流)為解決根本性的深度學習問題提供了重要的思路。這催生了如下所述的大量後續工作。

明年,我們將慶祝 LSTM 首次未能通過同行評審的 25 週年。1997年,在經過了主要的同行評審出版物 [LSTM1](現在是「Neural Computation」期刊歷史上引用量最多的文章)發表之後,LSTM 模型和它的訓練過程都得到了進一步的改進,這些工作由瑞士人工智能實驗室「IDSIA」的瑞士 LSTM 基金支撐,我後來的學生 Felix Gers、Alex Graves 等人參與到了這些工作中。

其中一個具有里程碑意義的工作是:帶有遺忘門 [LSTM2] 的「vanilla LSTM」架構,這是1999年到 2000 年間被提出的 LSTM 變體,直到現在仍然被廣泛使用(例如,在谷歌的 Tensorflow 中)。LSTM 的遺忘門實際上是一種端到端可微的快速權值控制器,我們在 1991 年也提出了這種結構[FAST0](詳見第八章)。

Alex 是我們首次成功地將 LSTM 應用於語音領域的工作的第一作者 (2004)[LSTM10]。2005 年,我們發佈了第一個具有完全基於時間的反向傳播功能的 LSTM 和雙向 LSTM 發 [LSTM3](現在被廣泛使用)。2006 年,另一個重要的里程碑是:用於同時對齊和序列識別的訓練方法 「連接時序分類」(簡稱 CTC)[CTC]。自 2007 年以來,CTC 成為基於 LSTM 的語音識別的必要技術。例如,在 2015 年,「CTC-LSTM」的組合顯著提升了谷歌語音識別系統的性能 [GSR15][DL4]。

在 2000 年代初期,我們說明了 LSTM 如何學習傳統模型(如隱馬爾可夫模型)無法學習的語言 [LSTM13]。過了一段時間,這份工作才被理解;但到了 2016~2017 年,谷歌翻譯 [WU][GT16] 和 Facebook 翻譯 [FB17] 均基於兩個連接的 LSTM 被提出,其中一個 LSTM 被用於輸入文本,另一個被用於輸出翻譯,這種模型的性能比之前的模型要好得多[DL4]。

2009 年,我的博士學生 Justin Bayer 作為第一作者完成了一個自動設計類似於 LSTM 的架構的系統,該系統在某些應用上的性能超過了「vanilla LSTM」。2017 年,谷歌開始使用類似的「神經網絡架構搜索」(NAS)技術。

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

自 2006 年起,我們一直與軟件公司(例如,LifeWare)通力合作,大大提升了首寫字母識別系統的能力。2009 年,在 Alex 的努力下,利用「連接時序分類」(CTC)技術訓練的 LSTM 模型成為了首次在國際競賽(三個 ICDAR 2009 舉辦的聯通首寫字母識別大賽(法文、波斯文、阿拉伯文))中奪冠的 RNN 模型。這極大地吸引了工業界的興趣。

不久之後,LSTM 便被廣泛應用於涉及包括語言、語音、視頻在內的序列數據的一切任務 [LSTM10-11][LSTM4][DL1]。截至 2017年,人們基於 LSTM 模型構建了Facebook 的機器翻譯系統(每週需要完成超過300 億份翻譯任務)[FB17][DL4],超過 10 億臺 iPhone 上運行的蘋果的「Quicktype」智能輸入法 [DL4],亞馬遜的 Alexa 語音助手,谷歌的語音識別(自 2015 年起內置於安卓設備)[GSR15][DL4]、圖像字幕生成[DL4]、機器翻譯[GT16][DL4]、自動郵件回覆[DL4] 等系統。美國的「商業週刊」將 LSTM 成為「商業化程度最高的人工智能研究成果」。

到 2016 年為止,谷歌數據中心超過四分之一的算力都被用於 LSTM(相比之下,只有 5% 被用於另一種名為「卷積神經網絡」的流行的深度學習技術——詳見第 19 章)[JOU17]。谷歌 2019 年發佈的新的設備內置的語音識別(現階段內置於你的手機上,而不是部署在服務器上)仍然是基於 LSTM 模型設計的。

通過我的學生 Rupesh Kumar Srivastava 和 Klaus Greff 的工作,LSTM 的原理也催生了我們在 2015 年 5 月提出的「Highway」神經網絡[HW1],這是第一個具有數百層非常深的 FNN 結構的網絡。微軟提出的廣為人知的 ResNet[HW2](ImageNet 2015 競賽的冠軍方案)就是 Highway 神經網絡的一種特例。然而,早期的 Highway 網絡就可以在 ImageNet 上取得與 ResNet 大致相當的性能[HW3]。Highway 層還常常被用於自然語言處理領域,而此時更為簡單的殘差層則性能較差[HW3]。

我們還通過沒有「老師」監督信息的強化學習(RL)技術訓練 LSTM 模型(例如,我的博士後 Bram Bakker 於 2002 年發表的工作 [LSTM-RL])。我們還通過神經演化來訓練 LSTM,例如我的博士生 Daan Wierstra 於 2005 年發表的工作 [LSTM12],Daan 後來成為了 DeepMind 公司的 1 號員工,而 DeepMind 的聯合創始人正是我實驗室中的另一名博士生 Shane Legg(Shane 和 Dann 是 DeepMind 公司裡最早發表人工智能論文的計算機科學博士)。

強化學習與 LSTM 的結合具有重要的意義。例如, 2019 年,DeepMind 在「星際爭霸」遊戲(該遊戲在很多方面都要比國際象棋和圍棋更加困難)中擊敗了職業玩家,而它們使用的正式一種名為「Alphastar」的算法,該算法的決策中樞擁有通過強化學習訓練的深度 LSTM 核心 [DM3]。OpenAI 的「Dactyl」仿人機械手也採用了通過強化學習訓練的 LSTM 核心,它能夠學著在沒有「老師」監督信息的情況下,控制靈巧的機器人手[OAI1],同時「OpenAI Five」也於 2018 年通過學習在 DOTA2 遊戲中成功擊敗了人類職業玩家 [OAI2]。

上面提到的這一切成果的重要基礎都是在 1991 年奠定的。後來,在慕尼黑工業大學和(當時還是私人的)瑞士 Dalle Molle 人工智能研究所(IDSIA)的基礎基金以及我在 1990 年代和 2000 年代早期的「神經網絡寒冬」中從瑞士、德國、歐盟獲得的公共基金的資助下,我的團隊還研發出了「LSTM&CTC」等成果,試圖在幾乎沒有人對神經網絡感興趣的年代保持這一領域的活力。

在此,我要特別鳴謝 Kurt Bauknecht、Leslie Kaelbling、Ron Wiliams 以及 Ray Solomonoff 等教授,他們對我提交的基金申請的積極評價在很大程度上幫助我自從 1990 年代以來獲得了來自 SNF 的資金支持。


5. 通過對抗生成神經網絡實現人工好奇心(1990)

當人類與自己身處的世界交互時,他們會學著預測自己行為的後果。人們有很強的好奇心,會通過設計實驗得出新的數據,並且可以從中學到更多知識。1990 年,為了構建具有好奇心的人工智能體,我提出了一種新型的主動無監督學習(或自監督學習)算法[AC90, AC90b]。該方法以一個極小極大博弈為基礎,其中一個神經網絡最小化另一個神經網絡最大化的目標函數。現在,我把這種兩個無監督的對抗性神經網絡之間的博弈稱為對抗性好奇心 [AC19],以區別於我們後來自從 1991 年提出的人工好奇心 (詳見第六章)。

然而,對抗性好奇心的工作原理如何呢?我們不妨將第一個神經網絡成為控制器 C,C 以一定概率生成可能對某個環境產生影響的輸出。第二個神經網絡被稱為世界模型 M,M 可以預測環境對於 C 的輸出做出的反應,其使用梯度下降法最小化其誤差,從而逐漸成為更好的預測器。然而,在一個「零和博弈」中,C 試圖找到的是使得 M 的誤差最大的輸出。因此,M 的損失就是 C 的增益。

也就是說,C 的目的是生成新的輸出或者實驗來產生仍然能使 M 感到新奇的數據,直到生成的數據對於 M 來說十分熟悉、最終變得「無聊」。近年來,研究者們基於這個原理進行的相關總結和拓展請參閱 [AC09]。

因此,在 1990 年,我們已經擁有了無監督(或自監督)的同時滿足「生成式」和「對抗性」(這裡我們採用很久以後在 2014 年的 [GAN1] 中出現的術語)兩大特徵的神經網絡,它們生成能夠產生新數據的實驗輸出,這不僅僅適用於靜態的模式,同時也可以用於模式的序列,甚至是通用場景下的強化學習。

當下火熱的對抗生成網絡(GAN)[GAN0][GAN1](2010-2014) 是對抗性好奇心[AC90] 的一種應用,其中環境僅僅返回 C 目前的輸出是否屬於一個給定的集合 [AC19]。

此外,請注意:對抗性好奇心 [AC90, AC90b]、GAN[GAN0, GAN1] 以及對抗可預測性最小化(詳見第七章)是密切相關的概念。而它們與早期的對抗性機器學習問題的設定 [GS59][H90] 又很不一樣,早期的對抗性機器學習既不涉及無監督神經網絡,也不涉及數據建模,而且也沒有使用梯度下降方法 [AC19]。


6. 通過最大化學習進度的神經網絡實現人工好奇心(1990)

最近,有許多綜述文章 [AC06][AC09][AC10] 對關於 1990 年提出的對抗性好奇心(AC1990,詳見第 5 章)的改進進行了總結。在這裡,我將重點介紹1991 年 [AC91][AC91b] 對對抗性好奇心的第一個重要改進。

在這份工作中,AC1990 的世界模型 M 的誤差(需要最小化,詳見第五章)是控制器 C 的獎勵(需要最大化)。這在許多確定性的環境中是一種非常好的策略。然而,在隨機化的環境中,這種策略則可能失效。C 可能會學著重點關注 M 總是由於隨機性或由於其計算限制而得到高預測誤差的情況。例如,一個由 C 控制的智能體可能會面對一個播放著極其難以預測的白噪聲的電視屏幕而束手無策 [AC10]。

因此,正如我們在 1991 年所指出的,在隨機環境中,C 的獎勵不應該是 M 的誤差,而應該是 M 的誤差在後續訓練迭代過程中的一階導數的近似,即 M 獲得的改進[AC91][AC91b]。因此,儘管面對上述充滿噪聲的電視屏幕會導致很高的誤差,但 C 也不會在陷入這種困境時獲得獎勵。完全可預測和根本不可預測的情況都會使好奇心消失。這種思路催生了許多人工智能科學家和藝術家 [AC09] 的後續工作 [AC10]。


7. 用於無監督數據建模的對抗性網絡(1991)

在我 1990 年發表首篇關於對抗生成網絡的工作(詳見第 5 章)後不久,我在科羅拉多大學博爾德分校做博士後時,又提出了一種無監督對抗性極小極大值原理的變體。神經網絡最重要的任務之一就是學習圖像等給定數據的統計量。

為了實現這一目標,我再次在一個極小極大博弈中使用了梯度下降 / 上升的原理,其中一個神經網絡將最小化另一個神經網絡最大化的目標函數。這種兩個無監督對抗性神經網絡之間的對抗被稱為可預測性最小化 (PM,1990 年代提出)。與後來的 [GAN1] 不同,PM 是一個純粹的極大極小博弈,例如 [PM2] 中的等式 2。相關綜述文章請參閱 [AC19])。

第一個關於 PM 的小型實驗 [PM1] 是在大約 30 年前進行的,當時其計算成本大約是現在的 100 萬倍。5 年後,當計算成本降低了 10 倍時,我們得以說明,應用於圖像的半線性 PM 變體會自動生成在神經科學領域廣為人知的特徵檢測器(例如,從中心到周圍的檢測器、從周圍到中心的檢測器,以及方向敏感的棒狀檢測器 [PM2])。


8. 端到端的可微「快速權值」:能學著對神經網絡進行編程的網絡(1991)

一個典型的神經網絡擁有比神經元更多的連接。在傳統的神經網絡中,神經元的激活值變化較快,而連接權值變化則較慢。也就是說,大量的權重無法實現短期記憶或臨時變量,只有少數神經元的激活值可以做到。具有快速變化的 「快速權值」的非傳統神經網絡則克服了這一侷限性。

神經網絡的動態連接或快速權值是由 Christoph v. d. Malsburg 於 1981 年提出的 [FAST],其他學者對此進行了更深入的研究,例如 [FASTb]。然而,這些作者並沒有採用端到端可微的系統,通過梯度下降學習來迅速操作「快速權重」的存儲。我在 1991 年發表了下面這樣的系統 [FAST0][FAST1],其中慢速神經網絡學著去控制獨立的快速神經網絡的權值。也就是說,我將存儲和控制像在傳統計算機中那樣分開,但是,是以完全的神經方式(而不是以混合方式)做到這一點。這種思路催生了許多後續的工作,下面我將列舉其中的一些。

一年之後,我提出了基於梯度下降的、通過二維張量或外積更新實現的對快速權值的主動控制 [FAST2](可以與我們在該領域最新的工作對比 [FAST3][FAST3a])。我們的動機是,在端到端可微控制下獲得比同樣大小的標準 RNN 更多的可能的臨時變量:從 O(H)變成O(H^2),其中 H 為隱藏單元的數量。25 年後,其他研究者也採用了這種方法 [FAST4a]。論文 [FAST2] 也明確地討論了對端到端可微網絡中「內部注意力關注點」(Internal Spotlights of Attention)的學習問題。相關工作請參閱第九章有關學習注意力的內容。

我也曾說明了「快速權值」可以如何被用於元學習或「Learning to Learn」,這也是我自 1987 年以後的一個主要的研究課題 [META1]。在 1992 年後的參考文獻 [FASTMETA1-3] 中,慢速 RNN 和快速 RNN 是相同的:網絡中每個連接的初始權值都是由梯度下降法訓練的,但是在一個迭代週期中,每個連接都可以由網絡本身編址、閱讀、並修改(通過 O(log^n)個特殊的輸出單元,其中 n 是連接的數目)。

而連接的權值可能迅速變化,從某種意義上說,網絡具有了「自我參照」效應(認知心理學概念,指記憶材料與自我聯繫時記憶效果優於其它編碼條件),這是由於理論上它可以學著運行任意可計算的權值變化算法或學習算法(作用於該網絡的所有權值)。這催生了 1990 年代和 2000 年代的許多後續工作。

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

不使用「老師」監督信號的深度強化學習(RL)也可以從快速權值中受益(即使系統的動力不可微)。2005 年,我之前的博士後 Faustino Gomez [FAST5](現為 NNAISENSE 的 CEO)也說明了這一點,而那時人們負擔得起的電腦的運行速度相較於 1990 年代已經提升了 1000 倍。

此外,據我所知,我們同年在深度強化學習領域所做的相關工作(但是沒有使用快速權值)是第一份在標題中包含了「Learn deep」詞組的機器學習論文 [DL6](2005 年,不久之後許多人開始討論「深度學習」)。

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

在過去的幾十年中,我們發表了大量其它的方法來學習如何通過非常緊湊的代碼,快速生成大型神經網絡的大量的權值,例如:[KO0][KO1][KO2][CO1][CO2][CO3]。在此,我們利用了「成功的大型神經網絡的柯爾莫哥洛夫複雜性或算法的信息量實際上可能非常小」這一規律。

值得一提的是,在 2013 年 7 月,「壓縮網絡搜索」(Compressed Network Search)[CO2] 成為了第一個在沒有任何無監督預訓練(與第一章不同)的情況下,使用強化學習技術成功地直接根據高維感知數據(視頻)學會控制策略的深度學習模型。不久之後,DeepMind 也開發出了一個用於高維感知輸入的深度強化學習模型 [DM1][DM2]。

現在,最著名的基於快速權值的端到端可微神經網絡 [FAST0] 實際上是我們 2000 年提出的 vanilla LSTM 網絡 [LSTM2](詳見第 4 章),它的遺忘門可以學著控制內部 LSTM 神經元的自循環連接的快速權值。今天,所有主要的 IT 公司都大量使用 vanilla LSTM[DL4]。同樣,這個模型的起源可以追溯到 1991 年(詳見第 4 章和第 8 章)。


9. 通過神經網絡學習順序注意力機制(1990)

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

與傳統的神經網絡不同,人類使用連續的目光移動和選擇性注意力來檢測和識別模式。這可能比傳統 FNN 高度並行的方法有效得多。這正是我們在 30 年前(1990 年及之前)提出順序注意力學習神經網絡的原因 [ATT0][ATT1]。不久之後,我還明確地提出了在 RNN 中對「內部注意力關注點」的學習 [FAST2](詳見第 8 章)。

因此,當時我們已經提出了現在非常常用的兩種類型的神經順序注意力機制:

(1)(在潛在空間中)通過神經網絡中的乘法單元實現的端到端可微的「軟」注意力 [FAST2];

(2)(在觀測空間中)實現的強化學習(RL)環境中的「硬」注意力機制 [ATT0][ATT1]。

這催生了許多後續的工作。今天,許多人都在使用帶有順序注意力學習機制的神經網絡。

我為 CMSS 1990 所寫的綜述論文 [ATT2] 在它的第 5 章中總結了我們早期關於注意力機制的工作。據我所知,這是首次實現結合了 glimpse 注意力機制(使用注意力組件,即固定控制器同時訓練識別和預測組件)的神經系統。20 年後,我這篇 1990 年的論文的審稿人(Hinton)在一篇他以第二作者身份發表的相關論文中寫道 [ATT3]:「據我們所知,這是首次使用一個注意力組件(固定控制器)實現結合了 glimpse 來同時訓練識別組件...的系統」。(相關內容請參閱第 10 章)


10. 分層強化學習(1990)

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

傳統的不具有「老師」的強化學習(RL)不能層次化地將問題分解為更容易解決的子問題。正是我在 1990 年提出分層強化學習(HRL)的原因,HRL 使用基於神經網絡的端到端可微分的子目標生成器[HRL0],以及學著生成子目標序列的循環神經網絡(RNN)[HRL1][HRL2]。強化學習系統獲得形如(start,goal)的額外輸入。有一個評價器神經網絡會學著預測從起始狀態到目標狀態的獎勵/開銷。基於 RNN 的子目標生成器也可以獲取(start,goal),並使用評價器神經網絡的副本通過梯度下降來學習成本最低的中間子目標序列。強化學習系統試圖使用這樣的子目標序列來實現最終目標。

我們在 1990-1991 年間發表的論文 [HRL0][HRL1] 是後續各種分層強化學習論文(例如,[HRL4])的先驅。不久之後,其他的研究者們也開始發表 HRL 領域的論文。例如,本文的參考文獻 [ATT2] 的審稿人正是參考文獻 [HRL3] 的尾作(相關工作請參見第 9章)。


11. 通過循環神經世界模型規劃並進行強化學習(1990)

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

1990 年,我提出了基於兩個 RNN 的組合 (控制器 C 和世界模型 M)的強化學習和規劃(請參閱第五章)。M 學著去預測 C 行為的後果。C 則學著使用 M 提前幾個時間步進行規劃,從而選擇最大化預測累積獎勵的動作序列 [AC90]。近年來,這一思路也催生了許多後續工作(例如,[PLAN2-6])。

1990 年的 FKI 科技報告 [AC90] 也提出了一些其它最近變得很熱門的概念。詳情請參閱第 5、12、13、14、20 章。


12. 將目標定義命令作為額外的神經網絡輸入(1990)

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

在現在的強化學習神經網絡中,有一個被廣泛使用的概念:用額外的目標定義輸入模式來編碼各類人物,這樣一來神經網絡就知道下一步該執行哪個任務。我們在 1990 年的許多工作中 [ATT0][ATT1][HRL0][HRL1] 提到了這一概念。在 [ATT0][ATT1] 中,我們使用一個強化學習神經控制器學著通過一系列的「掃視」(Saccade)操作去控制任務的「凹軌跡」(Fovea),從而找到視覺場景下的特定目標,因此可以學習到順序注意力(詳見第 9 章)。

我們通過特殊的不變的「目標輸入向量」將用戶定義的目標輸入給系統(詳見第 3 章第 2 節 [ATT1]),而系統通過「凹軌跡移動」(Fovea-Shifting)來形成其視覺輸入流。

具有端到端可微字目標生成器的分層強化學習(HRL,詳見第 10 章)[HRL0][HRL1] 也使用了一個具有形如(start,goal)的任務定義輸入的神經網絡,學著預測從起始狀態到目標狀態的成本。(25 年後,我之前的學生 Tom Schauls 在 DeepMind 提出了「通用值函數近似器」[UVF15])。

這一思想催生了許多後續的工作。例如,我們開發的「POWERPLAY」系統(2011)[PP][PP1] 也使用了任務定義的輸入將不同的任務區分開來,不斷地提出自己IDE新目標和新任務,以一種主動的、部分無監督的或自監督的方式逐漸學著成為一個越來越通用的問題求解器。2015 年,使用高維視頻輸入和內在動機(intrinsic motivation)的強化學習機器人也學著去探索 [PP2]。


13. 作為神經網絡輸入/通用值函數的高維獎勵信號(1990)

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

傳統的強化學習是基於一維獎勵信號的。然而,人類有數百萬種作用於不同種類刺激(例如,疼痛和愉悅)的信息傳感器。據我所知,參考文獻 [AC90] 是第一篇關於具有多維、向量值的損失和獎勵信號的強化學習的論文,這些信號從許多不同的感知渠道傳入,我們將預測所有這些傳感器接受信號的累計值,而不僅僅是單個標量的整體獎勵,這與之後的通用值函數(GVF)相類似。不同於之前的自適應評價(adaptive critics),我們 1990 年發表的這篇論文 [AC90] 提出的學習機制是多維循環的。

不同於傳統的強化學習,這些信息量巨大的獎勵信號也被用作使控制器神經網絡學著執行最大化累積獎勵的動作的輸入。


14. 確定性策略梯度(1990)

在我 1990 年發表的論文 [AC90] 的「Augmenting the Algorithm by Temporal Difference Methods」一章中,我們也結合了用於預測累積獎勵(可能是多維獎勵,詳見第十三章)的基於動態規劃的時間差分方法 [TD] 以及基於梯度的世界預測模型(詳見第十一章),從而計算單個控制網絡的權值變化。相關工作請參閱第 2.4 節介紹的 1991 年的後續工作 [PLAN3](以及類似的 [NAN1])。

25 年後,DeepMind 提出了該方法的一種變體「確定性策略梯度算法」(Deterministic Policy Gradient algorithm,DPG)[DPG][DDPG]。


15. 用網絡調整網絡/合成梯度(1990)

1990 年,我提出了各種學著調整其它神經網絡的神經網絡 [NAN1]。在這裡,我將重點討論 「循環神經網絡中的局部監督學習方法」(An Approach to Local Supervised Learning in Recurrent Networks)。待最小化的全局誤差度量是循環神經網絡的輸出單元在一段時間內接收到的所有誤差的總和。在傳統的基於時間的反向傳播算法中(請參閱綜述文章 [BPTT1-2]),每個單元都需要一個棧來記住過去的激活值,這些激活值被用於計算誤差傳播階段權值變化的貢獻。

我沒有讓算法使用棧式的無限存儲容量,而是引入了第二種自適應神經網絡,該網絡學著將循環神經網絡的狀態與相應的誤差向量相關聯。這些局部估計的誤差梯度(並非真實梯度)則會被用於調整 循環神經網絡 [NAN1][NAN2][NAN3][NAN4]。

不同於標準的反向傳播,該方法在空間和時間上都是局部的 [BB1][NAN1]。25 年後,DeepMind 將這種技術稱為「合成梯度」(Synthetic Gradients)[NAN5]。


16. 用於在線循環神經網絡的時間複雜度為 O(n3) 的梯度計算

我們最初在 1987 年發表的用於完全循環連續運行的網絡的固定大小的存儲學習算法 [ROB] ,在每一個時間步需要 O(n^4) 的計算複雜度,其中 n 是非輸入單元的數目。我提出了一種方法來計算完全相同的梯度,它需要固定大小的與之前的算法同階的存儲空間。但是,每個時間步的平均時間複雜度只有 O(n^3)[CUB1][CUB2]。然而,這項工作並非沒有意義,因為偉大的循環神經網絡研究的先驅 Ron Williams 首先採用了這種方法 [CUB0]!

此外,1987 年,當我發表我當時認為是首篇關於遺傳編程(GP,即自動演化的計算機程序 [GP1])的文論文時,也犯下了類似的錯誤,直到後來我才發現 Nichael Cramer 已經於 1985 年發表了 GP 算法 [GP0](而且在 1980 年, Stephen F. Smith 已經出了一種相關的方法,作為一個更大的系統的一部分 [GPA])。

自那以後,我一直盡我所能做到公正和誠信。至少,我們 1987 年的論文 [GP1] 似乎是第一篇將 GP 用於帶有循環結構以及可變大小的代碼的論文,也是首次關於在邏輯編程語言中實現 GP。


17. 深度神經「熱交換器」(1990)

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

「神經熱交換器」(NHE)是一種用於深度多層神經網絡的監督式學習方法,受啟發於物理意義上的熱交換器。輸入「加熱」會經過許多連續層的轉換,而目標則從深層管道的另一端進入並且進行「冷卻」。與反向傳播不同,該方法完全是局部的,使其不需要進行並行計算也可以較快運行。

自 1990 年 [NHE] 發表以來,我不定期地在各大學的演講中會提到該方法,它的與亥姆霍茲機 (Helmholtz Machine) 關係密切。同樣,該方法的實驗是由我傑出的學生 Sepp Hochreiter 完成的(詳見第 3 章、第 4 章)。


18. 我的博士畢業論文(1991)

1991 年,我發表了我在慕尼黑工業大學的博士論文 [PHD],總結了我自 1989 年以來的一些早期工作,其中包括:第一個強化學習(RL)神經經濟學方法(Neural Bucket Brigade)[BB1][BB2]、用於局部時空循環神經網絡的學習算法 [BB1]、具有端到端可微子目標生成器的分層強化學習(HRL,詳見第 10 章)、通過兩個被稱為控制器 C 和世界模型 M 的循環神經網絡組合進行強化學習和規劃、順序注意力學習神經網絡、學著調整其他神經網絡的神經網絡(包括「合成梯度」,詳見第 15 章),以及用於實現「好奇心」的無監督或自監督的生成對抗網絡(詳見第 5 章)。

當時,許多其他人的神經網絡研究受到了統計力學的啟發(例如,[HOP])。我在 1990-1991 年間的工作(以及我早先於 1987 年發表的學位論文)呈現了另一種面向程序的機器學習的觀點。

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

1931 年,Kurt Gödel 在創立理論計算科學時用基於整數的通用編碼語言表示數據(例如公理和定理)和程序(例如針對數據進行的操作的證明生成序列)。眾所周知,他使用這種語言構建正式的聲明(statement),這些聲明可以說明其它正式聲明的計算過程,特別是「自我參照」的正式聲明,聲明它們不能通過任何計算定理被證明。這樣一來,他便給出了數學、計算和人工智能的基本極限。

自從 1990 年發表 [AC90] 以來,我經常指出:神經網絡的權值應該被看作是它的程序。一些研究者認為深度神經網絡的目標是學習觀測數據的有用的內部表示(甚至針對表徵學習舉辦了名為 ICLR 的國際學術會議),但我一直傾向於認為神經網絡的目標是學習一個計算此類表徵的程序(參數)。

在 Gödel 的啟發下,我構建輸出為其它神經網絡的程序或權值矩陣的神經網絡,甚至是可以運行和檢查自己的權值變化算法或學習算法的自參照循環神經網絡(詳見第 8 章)。

與 Gödel 的工作不同的是,這裡的通用編程語言並不是基於整數,而是基於實數值,這樣一來典型神經網絡的輸出對於其程序而言就是可微的。也就是說,一個簡單的程序生成器(高效的梯度下降過程 [BP1])可以在程序空間中計算出一個方向,在該方向上可以發現更好的程序 [AC90],尤其是更好的「程序生成」程序(詳見第 8 章)。我自 1989 年以來的大量工作都利用了這一事實。


19. 從無監督預訓練到純粹的監督式學習(1995-1995,,2006-2011)

正如第 1 章中所提到的,我構建的第一個非常深的學習器是 1991 年的棧式循環神經網絡,它使用無監督預訓練學習深度大於 1000 的問題。但不久之後,我們發表了更多無需任何預訓練的解決「深度學習」問題的通用方法(詳見第 3 章),通過純粹的監督式長短時記憶網絡(LSTM)來替代無監督的棧式循環神經網絡 [UN1-3](詳見第4 章)。

也就是說,在公元 2000 年之前,無監督的預訓練已經不再那麼重要了,因為 LSTM 並不需要它了。實際上,這種從無監督預訓練到純粹的監督式學習的轉變早在 1991 年就開始了。

多年之後,在 2006 年到 2010 年間,也出現了非常類似的轉變,但這次這種轉變並不是針對於循環神經網絡(RNN),而是發生在沒那麼通用的前饋神經網絡(FNN)上。同樣的,我的小實驗室在這次轉變中也起到了核心作用。2006 年,研究者通過棧式 FNN 的無監督預訓練改進了 FNN 中的監督學習 [UN4](詳見第 1 章)。但是在 2010 年,我們的團隊以及我傑出的羅馬尼亞博士後 Dan Ciresan [MLP1] 說明可以通過簡單的反向傳播訓練深度 FNN,而且對於重要的應用來說完全不需要無監督預訓練。

我們的系統在當時著名並廣為使用的 MNIST 手寫數字識別數據集上取得了新的最佳性能記錄 [MLP1]。這一成就是通過在高度並行的圖形處理單元 GPU 上加速傳統的 FNN 實現的。一位著名的評論員將此成為「喚醒了機器學習社區」。今天,很少有商業深度學習應用仍然使用無監督的預訓練。

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

我在瑞士人工智能實驗室 IDSIA 的團隊,通過將傳統的 FNN 替換為另一種名為卷積神經網絡(CNN)的神經網絡,進一步改進了上述關於 FNN 中純粹監督式深度學習的工作(2010)。自 1970 年起,研究者們便發明並不斷改進了 CNN [CNN1-4]。

我們對基於 GPU 的快速 CNN 的監督式集成(請參閱 Ciresan 等人於 2011 年發表的論文)[GPUCNN1] 是一個重大的突破(相較於早期對 CNN 進行加速的工作快了許多 [GPUCNN]),並在 2011 年 5 月 15 日至 2012 年 9 月 10 日期間連續 4 次在重要的計算機視覺競賽中奪冠 [GPUCNN5]。尤其是,我們的快速深度卷積神經網絡是第一個在手寫漢字識別競賽(ICDAR 2011)中奪冠的算法,也是在所有國際競賽中實現超越人類的視覺模式識別能力的算法(我們在 IJCNN 2011 的現場交通標誌識別大賽中獲得了第一名,誤差率為 0.56%,也是該比賽中唯一超越人類的方法,人類的平均誤差為 1.16%,本屆比賽第三名方案的誤差為 1.69%);我們的模型也在 2012 年 5 月的 ISBI 大會舉辦的圖像分割大賽中首次奪冠,在 2012 年 9 月 10 日的 ICPR 大會舉辦的目標檢測大賽中首次奪冠,同時也是第一個在醫學癌症圖像檢測競賽中奪冠的模型 [GPUCNN5];我們的快速 CNN 圖像掃描器比之前方法的運行速度要快 1000 倍以上 [SCAN]。

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

在 2011 年的一次競賽中,我們的系統將目標識別誤差率降低了一半以上,而此時距離「奇蹟之年」已經過去了 20 年 [GPUCNN2]。不久之後,其他研究者也在圖像識別競賽中也採用了類似的方法 [GPUCNN5]。

與我們的 LSTM 在 2009 年取得的結果一樣(詳見第 4 章),我們的上述結果以及 2010-2011 年在前饋神經網絡上取得的結果引起了工業界極大的興趣。例如,在2010 年,我們為全世界最大的鋼鐵製造商 Arcelor Mittal 提出了我們基於 GPU 的深度快速網絡,從而大大改進了鋼鐵缺陷檢測技術 [ST]。這可能是深度學習技術在重工業領域取得的第一個重大突破。如今,大多數人工智能初創公司和主要的 IT 公司以及其它著名的公司都在使用這種監督式的快速 GPU 神經網絡。


20. 令人驚訝的關於人工智能的 FKI 系列技術報告(1990 年代)

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

許多後來廣為使用的「現代」深度學習基本思想都是我們在「奇蹟之年」(1990-1991)於慕尼黑工業大學(TU Munich)發表的(那時柏林牆剛剛倒塌不久):無監督或自監督學習、數據生成對抗網絡(用於人工好奇心和相關的概念,詳見第 5 章;也可以參閱本文第 7 章介紹的我在科羅拉多大學的後續工作)以及深度學習的根本性問題(梯度彌散/爆炸,詳見第 3 章)機器解決方案:(1)用於非常深的(循環)神經網絡(詳見第 1 章)的無監督預訓練;(2)催生 LSTM 的基本思路(詳見第 4 章和第 8 章)。

當時,我們還提出了序列注意力學習神經網絡,這是另一種已經變得非常流行的概念(關於觀測空間的「硬」注意力機制和潛在空間的「軟」注意力機制的介紹都請參閱第 9 章);還有學著對另一個神經網絡的快速權值、甚至是它們自己的權值進行編程的神經網絡(詳見第 8 章),以及上述提到的所有其它技術:從分層強化學習(詳見第十章)到使用循環神經世界模型進行規劃(詳見第 11 章),等等。

當然,要想將這些算法商業化運行,人們不得不等待更快的計算機的誕生。然而,直到 2010 年代中期,我們的產品被蘋果、谷歌、Facebook、亞馬遜、三星、百度、微軟等巨頭所使用,每天被數十億臺電腦使用數十億次以上 [DL4]。

上述大多數研究結果首次發表在慕尼黑工業大學的 FKI 系列科技報告中,我為其手動繪製了許多示意圖,本文展示了其中的一部分(詳見第 10、11、13、18章)。現在,FKI 系列報告在人工智能的歷史上起到了重要的作用,它介紹了許多重要的概念:

  • 用於非常深的神經網絡的無監督預訓練(FKI-148-91 [UN0],詳見第 1 章)
  • 將一個神經網絡壓縮/蒸餾成另一個(FKI-148-91 [UN0],詳見第 2 章)
  • 長短期記憶網絡(FKI-207-95 [LSTM0],詳見第 4、8 章)
  • 通過學習進度最大化的神經網絡實現好奇心(FKI-149-91 [AC91],詳見第 6 章)
  • 端到端快速權重和學著對其它神經網絡編程的神經網絡(像傳統計算機一樣,將神經網路的存儲和控制分離開來,FKI-147-91 [FAST0],詳見第 8 章)
  • 通過神經網絡學習順序注意力(FKI-128-90 [ATT0],詳見第 9 章)
  • 將目標定義命令作為額外的神經網絡輸入(FKI-128-90 [ATT0],FKI-129-90 [HRL0],詳見第 12章)
  • 分層強化學習(FKI-129-90 [HRL0],詳見第 10 章)
  • 用網絡調整網絡/合成梯度(FKI-125-90 [NAN2],詳見第 15 章)
  • 用於在線循環神經網絡的三次梯度計算也在 FKI-151-91 [CUB1] 中被提出,詳見第 16 章。

值得一提的是,報告 FKI-126-90 [AC90]還介紹了大量現在被廣為使用的概念:

  • 通過循環世界模型進行規劃(詳見第 11 章)
  • 將高維獎勵信號作為額外的神經網絡輸入/通用值函數(詳見第 13 章)
  • 確定性策略梯度(詳見第 14 章)
  • 同時滿足生成式和對抗性的神經網絡(詳見第5 章和第 7 章)
  • 人工好奇心及相關概念。

後來,舉世矚目的 FKI 科技報告自 1990 年代起介紹了一系列大大壓縮神經網絡從而提升其泛化能力的方法 [KO0][FM]。

FKI 報告發布不久之後就通過了同行評審。例如,在1992 年,我與偉大的 David MacKay 進行了一次有趣的競賽,看看誰能在一年之內在「Neural Computation」(當時是我們這個領域的頂級期刊)上發表更多的文章。到 1992 年底,我們都發表了 4 篇文章,但最終還是 David 贏了,因為他發表的論文(大多數都與用於神經網絡的貝葉斯方法有關)比我長得多。

免責聲明:當然,從科學層面上來說,像發表的論文數量和 H 指數這樣的指標很蒼白——唯一真正重要的是研究的質量 [NAT1]。


21. 結語

「LSTM 之父」深度學習不是在母語為英語的地方被髮明的

放眼於以英語為主導的學術圈,我們往往不能看清一個事實[DLC]——深度學習是在官方語言不是英語的地方被髮明的:

  • 這個研究領域始於 1965 年的烏克蘭(當時還屬於蘇聯),那時誕生了第一個具有任意深度的、可以學習的神經網絡 [DEEP1-2](詳見第 1 章);
  • 五年後,現代反向傳播方法在蘇聯「隔壁的」芬蘭出現(1970)[BP1](詳見第 0 章);
  • 基本的深度卷積神經網絡(現在被廣泛使用)架構是在 1970 年代的日本被髮明的,到了 1987 年,卷積網絡與權值共享和反向傳播相結合。
  • 無監督或自監督的對抗性網絡(兩個網絡在一個用於人工好奇心的極小極大博弈中對抗)起源於慕尼黑(1990,詳見第 5 章),慕尼黑也是 1980 年代第一批真正的自動駕駛汽車的誕生地,1994 年進行了高速公路交通實驗。
  • 基於反向傳播的深度學習的根本性問題也在慕尼黑被發現(1991,詳見第 3 章)[VAN1]。第一個克服這個問題的「現代」深度學習網絡也是如此,它們通過無監督的預訓練 [UN1-2](1991,詳見第 1 章) 和長短時記憶網絡 [LSTM0-7] 克服這個問題,LSTM 可以說是商業化程度最高的人工智能成果 [AV1](第 4 章)。
  • LSTM 在瑞士得到了進一步發展,這裡也誕生了第一個在圖像識別競賽獲勝的基於 GPU 的 CNN(2011,詳見第 19 章——現在計算機視覺領域的所有研究者都在使用這個方法)、第一個在視覺模式識別中超越人類的神經網絡(2011),以及第一個有超過 100 層、非常深的前饋神經網絡 [HW1](詳見第 4 章)。
  • 大約在 1990 年,瑞士也成為了萬維網的發源地,這使得人工智能可以在全世界範圍內被迅速傳播。截至 2017 年,瑞士在人工智能研究領域的引用影響力仍然居於世界前列——儘管中國現在是人工智能論文產出最多的國家 [THE17]。

當然,深度學習只是人工智能研究的一小部分,它主要侷限於被動的模式識別。我們將其視為通過元學習或 「learning to Learn」的學習算法(於 1987 年發表,研究更通用的人工智能的副產品,具有人工好奇心和創造力的系統定義了自己的問題並設定自己的目標(1990),演化計算(1987)、RNN 演化、壓縮網絡搜索、在真實部分可觀測的環境下(此時用於棋類遊戲的傳統強化學習不起作用,1989)的智能體的強化學習、通用人工智能、如 Gödel Machine 這樣的最優通用學習機(2003 至今)、對運行在通用計算機上的程序的最優搜索等。

當然,人工智能本身只是更宏大的科學追求的一部分,它將宇宙從簡單的初始條件推向越來越深不可測的複雜性 [SA17]。最後,即使這個令人敬畏的過程可能也只是所有邏輯上可能存在的宇宙中更宏大、更有效的計算中的滄海一粟 [ALL1][ALL2][ALL3]。

注:本文中涉及到的所有參考文獻詳見原文:http://people.idsia.ch/~juergen/deep-learning-miraculous-year-1990-1991.html#NAN1


分享到:


相關文章: