AI 將面臨的寒冬到來!

深度學習處於所謂的AI革命的前沿至今已有好幾年;許多人過去認為,深度學習是神奇的“銀彈”,會把我們帶到技術奇點(general AI)的奇妙世界。許多公司在2014年、2015年和2016年紛紛下豪賭,那幾年業界在開拓新的邊界,比如Alpha Go等。特斯拉等公司通過各自的門面(CEO)來宣佈,完全自動駕駛的汽車指日可待,以至於特斯拉開始向客戶兜售這種願景。

我們現在進入到2018年年中,情況已發生了變化。這表面上暫時還看不出來,NIPS大會仍一票難求,許多公司的公關人員仍在新聞發佈會上竭力鼓吹AI,埃隆·馬斯克仍不斷承諾會推出自動駕駛汽車,谷歌的首席執行官仍不斷高喊吳恩達的口號(AI比電力更具革命性)。但這種論調開始站不住腳。正如我在之前的文章中預測,最站不住腳的地方就是自動駕駛――即這項技術在現實世界中的實際應用。

深度學習方面塵埃已落定

ImageNet得到有效地解決時,這個領域的傑出研究人員、甚至包括通常低調的傑夫•辛頓(Geoff Hinton)都在積極接受媒體採訪,在社交媒體上大造聲勢,比如雅恩•樂坤(Yann Lecun)、吳恩達和李飛飛等人。大意無非是,我們正面臨一場巨大的革命;從現在開始,革命的步伐只會加快。多年過去了,這些人的推文變得不那麼活躍了,下面以吳恩達的推文為例來說明:

2013年:每天0.413條推文

2014年:每天0.605條推文

2015年:每天0.320條推文

2016年:每天0.802條推文

2017年:每天0.668條推文

2018年:每天0.263條推文(截至5月24日)

顯而易見,AI方面的聲勢已大幅減弱,現在盛讚深度學習是終極算法的推文少多了,論文也少了“革命性”的論調,多了“演進性”的論調。

自推出Alpha Go zero以來,Deepmind還沒有拿出任何激動人心的成果。OpenAI相當安靜,它上一次在媒體上大放異彩是玩《刀塔2》(Dota2)遊戲的代理,我想它原本是為了營造與Alpha Go一樣大的聲勢,但很快就沒有了動靜。實際上這時開始出現了好多文章,認為連谷歌實際上都不知道如何處理Deepmind,因為它們的結果顯然不如最初預期的那樣注重實際……至於那些聲名顯赫的研究人員,他們通常在四處會見加拿大或法國的政府官員,確保將來拿到撥款,雅恩•樂坤甚至辭去了Facebook AI實驗室主任一職,改任Facebook首席AI科學家。從財大氣粗的大公司逐漸轉向政府資助的研究機構,這讓我意識到,這些公司(我指谷歌和Facebook)對此類研究的興趣實際上在慢慢減弱。這些同樣是早期的徵兆,不是大聲說出來,只是肢體語言。

深度學習不具有擴展性

深度學習方面老生常談的重要口號之一是,它幾乎毫不費力就能擴展。我們在2012年有了約有6000萬個參數的AlexNet,現在我們可能擁有至少是參數是這個數1000倍的模型,是不是?也許我們有這樣的模型,可是問題是,這種模型的功能強1000倍嗎?

或者甚至強100倍?OpenAI的一項研究派上了用場:

所以,從視覺應用這方面來看,我們看到VGG和Resnets在運用的計算資源大約高出一個數量級後趨於飽和(從參數的數量來看實際上更少)。Xception是谷歌Inception架構的一種變體,實際上只是在ImageNet方面比Inception略勝一籌,可能比其他各種架構略勝一籌,因為實際上AlexNet解決了ImageNet。所以在計算資源比AlexNet多100倍的情況下,我們實際上在視覺(準確地說是圖像分類)方面幾乎讓架構趨於飽和。神經機器翻譯是各大互聯網搜索引擎大力開展的一個方向,難怪它獲取所能獲取的所有計算資源(不過谷歌翻譯仍很差勁,不過有所改進)。尤其是Alpha Go Zero和更通用一點的Alpha Go獲取的計算資源非常多,但它們並不適用於實際應用,原因是模擬和生成這些數據密集型模型所需的數據需要這些計算資源中的大部分。OK,現在我們可以在幾分鐘內、而不是幾天內訓練AlexNet,但是我們可以在幾天內訓練大1000倍的AlexNet,並獲得性質上更好的結果嗎?顯然不能……。

所以實際上,旨在顯示深度學習擴展性多好的這張圖恰恰表明了其擴展性多差。我們不能簡單地通過擴展AlexNet來獲得相應更好的結果,我們不得不調整特定的架構,如果不能在數據樣本的數量上獲得數量級的提升,實際額外的計算資源無法換來太大的效果,而這種量級的數據樣本實際上只有在模擬遊戲環境中才有。

自動駕駛事故不斷!

對深度學習名聲打擊最大的無疑是自動駕駛車輛這個領域。起初,人們認為端到端深度學習有望以某種方式解決這個問題,這是英偉達大力倡導的一個觀點。我認為世界上沒有哪個人仍相信這一點,不過也許我是錯的。看看去年加利福尼亞州車輛管理局(DMV)的脫離(disengagement)報告,英偉達汽車實際上開不了10英里就脫離一次。

自2016年以來,特斯拉自動駕駛系統已發生了幾起事故,幾起還是致命的。特斯拉的自動駕駛系統不該與自動駕駛混為一談,但至少它在核心層面依賴同一種技術。到今天為止,除了偶爾的嚴重錯誤外,它還是無法在十字路口停車,無法識別紅綠燈,甚至無法繞環島正確行駛。現在是2018年5月,離特斯拉承諾來一次西海岸到東海岸的自動駕駛(這一幕沒有出現,不過傳聞稱特斯拉有過嘗試,但無法成行)已有好幾個月。幾個月前(2018年2月),被問及西海岸到東海岸的自動駕駛時,埃隆·馬斯克在電話會議上重申了這點:

“我們本可以進行西海岸到東海岸的駕駛,但那需要太多專門的代碼來進行有效地改動,但這適用於一條特定的路線,但不是通用的解決方案。於是我認為我們可以重複它,但如果它根本無法適用於其他路線上,那不是真正意義上的解決方案。”

“我為我們在神經網絡方面取得的進展而感到激動。它是很小的進展,似乎不是多大的進展,但突然讓人大為驚歎。

除了這份報告中明顯提到的總體系統設計失敗外,令人吃驚的是,系統花了好幾秒的時間來確定看到的前方到底是什麼(無論是行人、自行車、汽車還是其他什麼),而不是這種情形下做出唯一的合理決定,從而旨在確保沒有撞上。這有幾個原因:第一,人們常常會事後會用言語表達其決定。因此,一個人通常會說:“我看到了一個騎車的人,於是我轉向左邊以避開他。”大量的精神生理學文獻會給出一番截然不同的解釋:一個人看到了被其神經系統的快速感知迴路迅速理解成障礙物的東西后,迅速採取行動來避開它,過了好多秒後才意識到所發生的事情,並提供口頭解釋。”我們每天做不是用言語表達的眾多決定,而駕駛包括許多這樣的決定。用言語表達開銷很大,又耗費時間,實際情形常常很緊迫,不允許這麼做。這種機制已進化了10億年來確保我們的安全,而駕駛環境(儘管現代)利用了許多這樣的反射。由於這些反射沒有專門針對駕駛而進化,可能會導致錯誤。一隻黃蜂在汽車裡嗡嗡作響,引起駕駛員條件反射,可能會導致多起車禍和死亡。但是我們對於三維空間和速度的基本理解、預測代理的行為和路上迎面而來的實際物體的行為這種能力卻是很原始的技能,跟1億年前一樣,這些技能在今天一樣有用,它們因進化而得到了顯著的增強。

但是由於這些東西大多不容易用言語表達,它們很難來測量,因而我們根本無法針對這些方面來優化機器學習系統……現在這將認同英偉達的端到端方法――學習圖像->動作映射,跳過任何言語表達,在某些方面這是正確的做法,但問題是,輸入空間是高維的,而動作空間卻是低維的。

實際上,如果說我們從深度學習的大流行中學到什麼東西,那就是(10k+維度)圖像空間裡面有足夠多的虛假模式,它們實際上在許多圖像上具有共性,並留下印象,比如我們的分類器實際上理解它們看到的東西。連在這個領域浸淫多年的頂尖研究人員都承認,事實遠非如此。

加里•馬庫斯對炒作說不

我應該提到一點,更多的知名人士認識到了這種傲慢自大,有勇氣公開炮轟。這個領域最活躍的人士之一是加里•馬庫斯(Gary Marcus)。雖然我並不同意加里在AI方面提出的每個觀點,但我們無疑一致認為:AI還沒有像深度學習炒作宣傳機器描繪的那麼強大。實際上,相距甚遠。

他非常深入細緻地解析了深度學習炒作。我很敬重加里,他的表現像是真正的科學家,大多數被稱為“深度學習明星”的人其表現就像三流明星。

結束語

預測AI的冬天就像預測股市崩盤――不可能準確地預測何時發生,但幾乎可以肯定的是,它會在某個時候點發生。就像股市崩盤之前,有跡象預示股市即將崩盤,但是對前景的描繪是如此的誘人,以至於很容易忽視這些跡象,哪怕這些跡象清晰可見。在我看來,已經有這類明顯的跡象表明,深度學習將大幅降溫(可能在AI行業,這個術語已被企業宣傳機器沒完沒了地濫用),這類跡象已經清晰可見,不過大多數人被越來越誘人的描繪矇蔽了雙眼。那個冬天會有多“深”?我不知道。接下來會發生什麼?我也不知道。但我很肯定AI冬天會到來,也許更早到來,而不是更晚到來。


分享到:


相關文章: