深度學習,你就是那位116歲的長壽老奶奶

2015年有條新聞,當年116歲的紐約布魯克林老太太瓊斯接受採訪。記者問其養生之道,告之,每天早餐吃四片培根。沒錯,就是“知識就是力量,法國就是培根”裡的培根。

這種另類的長壽秘訣在百歲老人中似乎並非個例。美國一著名的搜索“令人驚奇事件”的網站曾特地蒐羅過,比如百歲老人英國人多蘿西·豪喜好金鈴威士忌和每天抽15根超級帝王香菸,1997年辭世的122歲老人讓娜·卡爾芒每週會吃約1公斤的巧克力,美國沃思堡的104歲老人伊麗莎白·沙利文喜歡每天喝三廳“碳酸”飲料,美國密歇根州104歲的特雷莎·羅利每天一瓶無糖可樂。國人也能找到類似的例子,比如在湖北蔡甸城關肖家164號的102歲長壽太婆周如英從80歲開始每天一升可樂。2014年臺北110歲的老太太林黃玉珍特別喜歡喝紅酒、薯條。

為什麼明明不符合共識的養生之道卻能奏效呢?這其中有個統計的解釋。共識的養生之道是通過歸納的方式總結的經驗。歸納是由一系列具體的事實概括出一般原理。在數學上,則是從眾多個別的事物或樣本中概括出一般性的概念、原則或結論。歸納追求的是統計上的共性、平均,關心的也不是個例上的特定品質。既然是共性、平均,他自然會光滑掉某些成功的長壽個例的品質。其次,在統計或歸納的時候往往是基於共同的結構,而不會過多地考慮甚至會忽略個體間差異。所以,如果過份地相信統計和歸納,就可能陷入一個誤區,認為這些個例是不合理的。

從這個角度看,近年來引發第三波人工智能熱潮的深度學習就像是那位116歲的長壽老奶奶,而深度學習之前的做法則像是共識的養生之道。

那麼以前的“養生之道”是怎麼玩的呢?以預測任務為例,我們的目標是希望學習到的模型在預測未知目標時越精確越好。但放在統計學習框架下,我們會碰到模型複雜性問題。這一問題的來源在於,設計的每個模型離真實的模型之間總會有偏差的存在,同時,模型的參數會導致其模型自身在尋優時存在波動,即會產生方差。因此,從統計意義來講,一個好的模型需要在偏差和方差之間尋找平衡,如圖1所示。在深度學習未包打天下之前的年代,這種平衡往往是通過控制模型的複雜性來獲得的。對於複雜性的認識,這幾十年來一直在變遷中。有通過控制模型的參數數量來實現的,如貝葉斯信息準則、Akaike信息準則;有從信息論的編碼長度角度出發的,如Rissanen基於Kolmogrov複雜度提出的最小描述長度,面向聚類的最小信息長度;有從數據幾何結構出發的,如限束空間光滑性的流形約束;有從稀疏性角度出發的,如懲罰模型係數總量的L1範數;還有從模型結構的推廣能力進行懲罰的,如統計機器學習中曾經盛行一時的VC維、最大邊緣等約束。

深度學習,你就是那位116歲的長壽老奶奶

不管是哪種複雜性,都是希望在統計意義下,從某個側面去逼近真實世界的局部甚至整體,獲得在其假設下的理論最優解。因為是歸納求解,解通常是穩定的,不會出現多少異類。

那麼,深度學習又是怎麼玩的呢?不管採用什麼樣的結構,深度學習最明顯的特點就是模型深,參數多。自2006年Geoffrey Hinton基於伯茲曼機提出的深度模型至今,殘差網、稠密網、Inception網等各種深度學習模型的可調整參數的數量都在百萬級甚至百萬級的百倍以上。這帶來一個好處,即他能表達一個遠大於原有空間的空間,學術上稱之為過完備空間。一般來說,在這個過完備空間上尋找不符合統計規律、但卻具有優良品質的個例的機會就顯著增大了。

那麼為什麼以前不做呢?一方面之前沒有那麼大規模的數據量,另一方面以前的工程技術也不支持考慮這麼大規模的模型。目前多數已知的傳感器成本降了不少、各種類型的數據獲取成本也下來了,所以能看到PB級甚至ZB級的數據,如圖像、語音、文本等。實在找不到數據的領域,還可以通過14年提出的生成式對抗網絡來生成足夠逼真的、海量的大數據。這兩者都使得訓練好的模型在刻畫這個過完備空間的能力上增強了不少。

其次,工程技術上的革新也推動了深度學習的成功。深度學習的前身如多層感知器或其它神經網絡模型在利用經典的反向傳播算法調整模型的參數時,往往會陷入局部極小、過度擬合、會存在調參停滯的梯度消失、梯度爆炸等問題,還缺乏處理大規模數據需要的並行計算能力。這些問題,在近10年的深度學習發展中或多或少都得到了部分解決,比如通過規一化來防止梯度消失的Batch Normalization(批規範化)技術,考慮增強網絡的穩定性、對網絡層進行百分比隨機採樣的Drop Out技術,還有數據增廣技術等。這使得深度學習在這個過完備空間搜索具有優良品質的個例的算力得到了顯著增強。

那麼,能否找到這些個例嗎?當然可以,只要足夠耐心,模型的參數空間能夠過完備的超過原任務空間的大小,總有辦法通過精細調整模型的參數去幸運地找到這些個例,而且這些個例顯然不會只止一個。現有的深度學習在軟硬件兩方面都可以以大概率保證找到一群“116歲的長壽老太太”。這對於產業界來說,是件好事。因為產業界追求最優性能,而非統計意義上的平均性能。所以,不管你是白貓還是黑貓,只要能捉老鼠都是好貓。這大概就是現在深度學習成功的原因之一。

但是,有得必有失。既然尋找的是個例,過完備空間又不小,尋找的過程自然多少需要點運氣。另外,它也不是純粹的統計或歸納,也就沒辦法形成穩定性的、具有共識的“養生之道”,甚至從中歸納出一套類似於“模型複雜性”的合理理論都有可能難以下手。 如果硬要找的話,也許可以考慮下墨菲定律。

所以,從統計角度來看,儘管是追求共識之道,但統計也並不排斥特例的存在。喜歡找特例的,就找好了。但需要注意,我們可能很難通過這些老太太的、比較隨機的“養生之道”,告訴人工智能研究者或相關領域的從業人員比較普適性的準則的。


分享到:


相關文章: