LSTM 之父發文:2010-2020,我眼中的深度學習十年簡史

LSTM 之父發文:2010-2020,我眼中的深度學習十年簡史

作者 | Jürgen Schmidhuber

譯者 | 劉暢、若名

出品 | AI科技大本營(ID:rgznai100)

作為LSTM發明人、深度學習元老,Jürgen Schmidhuber於2月20日發表了一篇博文,著重介紹了近十年來基於作者研究工作最重要的開發和應用,最後對2020年代進行了展望,也提及到了數據隱私和市場。下面是本篇文章的目錄:

第1部分:長短期記憶網絡的十年

第2部分:前饋神經網絡的十年

第3部分:LSTM和FNN / CNN,LSTM與FNN的對比

第4部分:GAN,基於好奇心產生的技術

第5部分:2010-2020十年其他的熱門話題:深度強化學習、元學習、世界模型、蒸餾網絡、神經架構搜索、注意力學習、快速權重、自發明問題...

第6部分:數據市場和隱私的未來

第7部分:展望:2010年代與2020年代,虛擬AI還是現實 AI(Real AI)?

LSTM 之父发文:2010-2020,我眼中的深度学习十年简史

長短期記憶網絡的十年

在最近十年,大部分AI都是關於長期短期記憶(LSTM)的神經網絡。世界本質上是序列性的,而LSTM徹底改變了序列數據處理,例如語音識別、機器翻譯、視頻識別,聯機手寫識別、機器人、視頻遊戲、時間序列預測、聊天機器人、醫療保健應用等。到2019年,LSTM每年獲得的引用量超過過去一千年間任何其他計算機科學論文。下面,作者列出了一些最明顯的應用。

LSTM 之父发文:2010-2020,我眼中的深度学习十年简史

2009:聯機手寫識別。作者的博士生亞歷克斯·格雷夫斯(Alex Graves)在ICDAR 2009(著名的文檔分析和識別會議)上贏得了三項手寫體比賽(法語、波斯語、阿拉伯語)。他使用了作者在慕尼黑工業大學和瑞士AILab IDSIA研究小組開發的兩種方法的組合:LSTM(1990s-2005)(它克服了我的博士生Sepp Hochreiter [VAN1]分析出的梯度消失問題)和聯結主義時間分類法(CTC)(2006年)。採用CTC訓練的LSTM是第一個贏得國際比賽的遞歸神經網絡或RNN 。

採用CTC訓練的LSTM也是第一臺端到端神經語音識別器。早在2007年,我們的團隊就已經將CTC-LSTM成功應用於語音,同時也將其應用於分層LSTM堆棧。自1980年代以來,這與以前的混合方法有很大的不同,後者主要是將神經網絡和傳統方法結合起來,例如隱馬爾可夫模型(HMM)。Alex在多倫多做博後時,都還在一直使用CTC-LSTM。

CTC-LSTM在工業上產生了巨大的影響。到2015年,它大大改善了Google的語音識別。而現在幾乎所有智能手機上都有此功能。到2016年,Google數據中心所有這些Tensor處理單元的功能中有四分之一以上都是用於LSTM(其中卷積神經網絡使用了5%)。2019年穀歌的語音識別設備(不再在服務器上)仍然是基於LSTM。微軟、百度、亞馬遜、三星、蘋果和許多其他的著名公司也在使用LSTM。

2016年:首個端到端神經機器翻譯也是基於LSTM。我的博士生Felix Gers早在2001年就證明LSTM可以學習傳統模型(例如HMM)無法學習的語言。也就是說,“亞符號”的神經模型突然擅長學習“符號”任務!這得益於計算硬件的提升,到2016-17年,Google Translate和Facebook Translate都基於兩個相連的LSTM,其中一個用於傳入文本,一個用於傳出翻譯的文本。到2017年,基於LSTM,Facebook的用戶每週會進行300億次的翻譯。做個對比:最受歡迎的youtube視頻(歌曲“ Despacito”)在兩年內僅獲得了60億次點擊。

LSTM 之父发文:2010-2020,我眼中的深度学习十年简史

基於LSTM的機器人。到2003年,我們的團隊將LSTM用於強化學習(RL)和機器人。在2010年代,RL和LSTM的組合已成為標準。例如,在2018年,經過RL訓練的LSTM是OpenAI公司Dactyl的核心,該Dactyl學會了在沒有老師的情況下控制靈巧的機器 人手臂。

2018-2019年:用於視頻遊戲的LSTM。在2019年,DeepMind使用RL+LSTM訓練的Alphastar,在星際爭霸遊戲中擊敗了職業玩家,而該遊戲在許多方面比國際象棋都難。採用RL訓練的LSTM(佔模型總參數的84%)也是OpenAI Five的核心,它在Dota 2電子遊戲(2018年)中擊敗了人類職業玩家。

2010年代出現了許多其他LSTM應用,例如LSTM用於醫療保健、化學分子設計、唇讀、股市預測、自動駕駛汽車、將大腦信號映射到語音,預測核聚變反應堆中發生了什麼等等。

LSTM 之父发文:2010-2020,我眼中的深度学习十年简史

前饋神經網絡的十年

LSTM原則上是一個可以實現筆記本電腦上運行的任何程序的RNN。前饋神經網絡(FNN)的限制更多(儘管它們在五子棋、圍棋和國際象棋這樣的棋盤遊戲中足夠好)。也就是說,如果我們要構建基於神經網絡的人工智能(AGI),則其基礎計算必須類似於RNN。FNN從根本上來說還不夠。RNN與FNN的關係,就像一般計算機與計算器一樣。儘管如此,我們的深度學習十年進展也會涉及FNN,如下闡述。

2010年:深層FNN不需要無監督的預訓練。在2009年,許多人認為深層FNN如果沒有未經監督的預訓練就無法學到很多東西。但是在2010年,我們的團隊與我的博士後Dan Ciresan 研究表明,深層FNN可以通過簡單的反向傳播進行訓練,並且完全不需要無監督的預訓練。我們的系統在當時著名的圖像識別基準MNIST上創下了新的性能記錄。這是通過GPU的高度並行圖形處理單元上極大地加速傳統FNN來實現。審稿人稱此為“對機器學習社區的喚醒”。如今,很少有商業的神經網絡應用仍是基於無監督的預訓練。

LSTM 之父发文:2010-2020,我眼中的深度学习十年简史

2011年:基於CNN的計算機視覺革命。自1970年代以來,我們在瑞士的團隊(Dan Ciresan等人)極大地加快了其他人發明和開發的卷積神經網絡。2011年創建了第一個屢獲殊榮的CNN,通常稱為“DanNet”。這是一個實質性的突破。它比早期GPU加速的CNN更深,更快。早在2011年,它就表明深度學習在識別圖像目標方面比現有的最新技術要好得多。實際上,它在2011年5月15日至2012年9月10日之間連續贏得了4項重要的計算機視覺競賽,之前是類似GPU加速的Univ CNN。

在2011年硅谷的IJCNN上,DanNet是第一個在視覺模式識別競賽中超過人類水平,甚至《紐約時報》也提到了這一點。它也是第一個獲勝的深層CNN:同時贏得了中國手寫競賽(ICDAR 2011)、圖像分割競賽(ISBI,2012年5月)、大型目標檢測競賽(ICPR,2012年9月10日)關於癌症檢測的醫學影像比賽(這些比賽全部都在ImageNet 2012之前)。我們的CNN圖像掃描儀比以前的方法快1000倍,在醫療保健等方面具有極其重要的意義。如今,IBM、西門子、谷歌和許多新興公司都在跟隨這一方法。許多現代計算機視覺的方法就是作者在2011年研究工作的擴展。

LSTM 之父发文:2010-2020,我眼中的深度学习十年简史

早在2010年,我們就向全球最大的鋼鐵生產商Arcelor Mittal推出了基於GPU的深度、快速神經網絡,並能夠通過CNN大大改善鋼缺陷檢測能力(在ImageNet 2012之前)。這可能是重工業中的首個深度學習突破,並幫助了我們公司NNAISENSE的誕生。在2010年代初,我們的深度學習方法還有其他一些應用。

通過我的學生RupeshKumar Srivastava和KlausGreff,LSTM原理還產生了我們於2015年5月發佈的高速公路網絡(Highway Networks),這是第一個使用數百層的非常深的FNN。微軟最受歡迎的ResNets(贏得了ImageNet2015競賽)是其中的特例。較早的公路網絡的性能與ImageNet上的ResNet差不多。高速公路層也常用於自然語言處理,而較簡單的殘差則無法正常工作。

LSTM 之父发文:2010-2020,我眼中的深度学习十年简史

LSTM和FNN/ CNN,LSTM與FNN的對比

在最近的深度學習十年中,靜態模式(例如圖像)的識別主要是由CNN完成的,而序列處理(例如語音、文本等)則主要是由LSTM完成的。有時也會將CNN和LSTM結合在一起,例如視頻識別。FNN和LSTM有時也會入侵對方的領域。兩個例子:

1.多維LSTM不受CNN固定patch大小的限制,在某些計算機視覺問題表現會更出色。儘管如此,大多數計算機視覺仍然是基於CNN。

2.在本世紀末,儘管受時序上的限制(缺少時序信息),但基於FNN的Transformers在傳統的LSTM域Natural Language Processing上開始脫穎而出。儘管如此,LSTM仍然可以快速解決學習許多語言的任務,而普通的Transformers則不能。

LSTM 之父发文:2010-2020,我眼中的深度学习十年简史

商業週刊稱LSTM“可以說是最商業化的AI成就”。如上所述,到2019年,LSTM每年獲得的引用量超過過去千年的所有其他計算機科學論文。新千年的記錄持有人是與LSTM相關的FNN:ResNet(2015年12月)是我們高速公路網絡的一種特殊情況。

LSTM 之父发文:2010-2020,我眼中的深度学习十年简史

GAN:十年來由好奇心產生的最著名技術

生成對抗網絡(GAN)是在2010年代非常流行的另一個概念。GAN是作者在1990年對流行的對抗好奇心原理的一個實例。該原理如下:一個神經網絡概率地產生輸出,另一個神經網絡看到這些輸出並預測對其的反應。使用梯度下降方法,將預測器NN的誤差最小化,而生成器NN則使其誤差最大化。一個網絡的損失就是另一網絡的收益。GAN是這種情況下的一種特殊情況。

LSTM 之父发文:2010-2020,我眼中的深度学习十年简史

2010年代的其他熱門話題

2013年7月,我們的 壓縮網絡搜索 是第一個使用深度強化學習(RL)來直接從高維感官輸入(視頻)成功地學習控制策略的深度學習模型,無需進行任何無監督預訓練。

幾個月後,基於神經進化的RL也成功學會了玩Atari遊戲。此後不久,DeepMind 公司 也有了用於高維感官輸入的Deep RL系統。

到2016年,DeepMind擁有著名的超人類圍棋玩家Go。該公司成立於2010年,這可算是十年來的第一年。最早的在計算機科學領域擁有AI出版物和博士學位的DeepMinders來自我的實驗室。

自1990年以來,我們在RL和基於兩個稱之為控制器和世界模型的RNN組合進行規劃的工作在2010年代也開始流行。

自1987年以來,很少有人關心我們的元學習或學會學習(learning to learn )工作。在2010年代,元學習終於成為熱門話題。自1990年以來關於人工好奇心、創造力和POWERPLAY風格的自發明問題跟我們的工作類似。

LSTM 之父发文:2010-2020,我眼中的深度学习十年简史

類似於我們自2009年以來在神經架構搜索方面的工作,在某些應用方面優於普通LSTM的類LSTM架構,例如[NAS],以及我們自1991年以來在壓縮或提取NNs到其他NNs的工作。

自2009年以來,我們在神經體系結構搜索方面的工作類似,在某些應用中,優於類LSTM的類似LSTM的體系結構,以及自1991年以來我們在將 NNs 壓縮或提取為其他NNs方面的工作。

自1990年以來,我們在分層RL方面的工作類似,例如確定性策略梯度和合成漸變。自1991年以來我們的工作類似,即通過對抗性NNs和其他方法以及端到端通過階乘解纏表示對數據進行編碼可區分的系統,通過梯度下降學習,以快速權重快速操縱NNs,以完全神經網絡的方式像傳統計算機一樣將存儲和控制分開。

早在1990年代初期,我們就擁有了兩種現在常見的神經序列注意力機制: 通過網絡內的乘法單元進行端到端可區分的“軟”注意裡(在潛在空間中),並在RL的上下文中(在觀察空間中)進行的“硬”注意力,這才產生了很多後續工作。在2010年代,許多人使用了序列注意力學習神經網絡。上一個世紀的許多其他概念不得不等待2010年代更快的計算機開始流行。

正如第21節所提到的,深度學習是在英語不是官方語言的地方發明的。它始於1965年的烏克蘭(當時屬於蘇聯),具有第一個真正學習過任意深度的網絡。五年後,現代反向傳播在芬蘭(1970年)發表。基本的深度卷積神經網絡架構(現已廣泛使用)是在1970年代的日本發明,後來具有卷積的神經網絡(1987年)也結合了“權重分配”和反向傳播。我們的成績站在這些作者和許多其他作家的肩膀上。

當然,在大多數應用中, 深度學習只是AI的一小部分,僅限於被動模式識別。我們將其視為更通用的人工智能研究中的副產品 ,其中包括最佳通用學習機器。

LSTM 之父发文:2010-2020,我眼中的深度学习十年简史

數據市場和隱私的未來

AI主要依賴於數據訓練。如果數據是新石油,那麼它應該像石油一樣具有價格。在2010年代,主要的監視平臺並沒有提供任何資金來保護數據,因此會失去隱私。但是,到2020年代,應該會嘗試創建有效的數據市場,以通過供需之間的相互作用來找出數據的真實經濟價值。甚至某些敏感的醫療數據也不會由政府監管機構定價,而是會由擁有該數據並可能在醫療數據市場中出售的公司來定價。

日益複雜的社會是否必然導致監視和隱私的喪失?像城市、州和公司這樣由許多人組成的區域,就像人由許多細胞組成一樣。這些單元幾乎沒有隱私。它們由專門的“警察細胞”和“邊境守衛細胞”不斷監控:你是癌細胞嗎?你是外部入侵者、病原體嗎?單個細胞為了成為多細胞生物的一部分而不得不犧牲自己的自由。

LSTM 之父发文:2010-2020,我眼中的深度学习十年简史

類似的超級生物,例如國家。五千多年前,寫作使記錄的歷史成為可能,因此成為其開創性和最重要的發明。但是,其最初目的是促進監視,跟蹤公民及其納稅情況。超級生物越複雜,則有關其組成成分的信息收集就越全面。

200年前,每個村莊的牧師都瞭解所有村民,甚至包括那些不認罪的人。而且,每個人很快都知道進入村莊的那個陌生人。這樣的控制機制在快速發展的城市中因匿名而暫時丟失,但現在隨著新的監視設備(如智能手機)的迴歸,智能設備可以告訴公司和政府數十億用戶的信息。

攝像機和無人機等一直在變得越來越小,無處不在,而人臉和步態等識別正變得越來越便宜,並且很快許多人將使用它來識別地球上的其他任何地方。這是好事還是壞事?無論如何,以犧牲選民的隱私權為代價,某些國家可能會比其他國家更容易成為更復雜的超級生物。

LSTM 之父发文:2010-2020,我眼中的深度学习十年简史

2010年代-2020年代:虛擬AI還是Real AI?

在2010年代,人工智能在虛擬世界中表現出色,例如在視頻遊戲、棋類遊戲,尤其是在主要的WWW平臺上。大部分AI利潤都來自市場營銷。通過NNs進行的被動(passive)模式識別幫助諸如亞馬遜、阿里巴巴、谷歌、Facebook和騰訊等一些最有價值的公司讓你在平臺上停留更長時間,預測你可能感興趣的項目,讓你點擊量身定製的廣告。 但是,市場營銷只是世界經濟的一小部分。未來十年會帶來什麼?

在2020年代,活躍的AI(Active AI)將越來越多地入侵現實世界,驅動工業流程、機器和機器人,就像電影中表現的那樣。儘管現實世界比虛擬世界要複雜得多,即將到來的波的 “真實世界AI(Real World AI)”或“現實AI(Real AI)”會比以前的A浪潮更大,因為它會影響到人類所有的生產,因而成為經濟發展的更大部分。這就是為什麼NNAISENSE都是完全關於 Real AI的原因。

有人聲稱,擁有許多用戶大量數據的大型平臺公司將主導AI。這太荒謬了,嬰兒如何學會變得聰明?不是“通過從Facebook下載大量數據” ,而是它通過使用玩具進行自發明的實驗來主動創建自己的數據,學會預測其行為的後果,並利用這種物理和世界的預測模型來成為越來越好的計劃者和問題解決者。

LSTM 之父发文:2010-2020,我眼中的深度学习十年简史

我們已經知道如何構建像嬰兒一樣學習的人工智能,使用的是我從1990年起就稱之為人工好奇心(Artificial Curiosity )的東西,並整合了有助於推理和從原始數據中提取抽象對象的機制。

在並不遙遠的將來,這將有助於創建我曾提到的能說會做的機器人(See-And-Do Robotics) : 快速教導NN控制具有很多自由度的複雜機器人來執行復雜的任務,例如僅通過視覺演示並通過與之交談即可組裝智能手機,而無需接觸或直接引導機器人- 有點像我們教孩子。這將徹底改變人類文明的許多方面。

當然,這類AI也有軍事用途。儘管AI軍備競賽似乎不可避免,但2020年幾乎所有AI研究都將致力於使人類的壽命更長、更健康、更輕鬆、更快樂。我們的口號是:人人享有AI。 人工智能不會受到一些大公司或政府的控制。自1941年以來,每5年計算機的價格就會便宜10倍 。這種趨勢不會很快消失。每個人都將擁有廉價但功能強大的AI,從許多方面改善她/他的生活。

在2020年代,目前就是如此。在更遙遠的未來,大多數能自我驅動、自我複製,具備好奇、 創造力和意識的 AI將會運用於大多數物理資源所在的地方,最終征服和改造整個可見宇宙,這可能是眾多可計算宇宙的其中之一。

原文鏈接:

http://people.idsia.ch/~juergen/2010s-our-decade-of-deep-learning.html

本文為 CSDN 翻譯,轉載請註明來源出處。


分享到:


相關文章: