01.22 斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的

斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的

作者 | 叢末

本科畢業於清華姚班、博士畢業於普林斯頓大學,師從 Sanjeev Arora 教授,馬騰宇作為 AI 學界一顆冉冉升起的新星,如今已在國際頂級會議和期刊上發表了 20 篇高質量的論文,曾拿下 2018 ACM 博士論文獎等諸多重量級的學術榮譽。

日前,在北京智源人工智能研究院主辦的海外學者報告會上,馬騰宇帶來了一場乾貨味十足的報告,不僅基於近期聚焦的研究工作“設計顯式的正則化器”分享了理解深度學習的方法,還基於自己的研究經驗分享了不少研究方法論和觀點。

他指出,現在用來理解深度學習的常用方法是隱式的正則化方法,然而他們在研究中發現,顯式的正則化方法可能是更好的選擇。

同時,他強調,計算機科學跟物理、生物等傳統科學的不同之處在於:可以不斷地設計新的算法。“雖然

我們無法理解現有的深度學習算法,但我們可以設計我們既能理解又能保證有效的新算法。”

我們下面來看馬騰宇的報告內容:

一、為什麼過參數化的深度學習模型能實現泛化

深度學習是馬騰宇研究組的重要研究方向,他們的主要研究思路是從方法論層面,通過一些數學或理論的分析從技術的角度提高深度學習模型的性能。

他指出,從方法論的層面來看,深度學習當前存在的一個非常核心的挑戰就在於需要很大規模的數據才能實現泛化,並且數據量的規模需要大到非常誇張的地步,以至於他認為學術界很難完全收集這麼多數據,往往只有工業界能做到。

因此,如果希望深度學習模型減少對數據的依賴,就需要理解如何能用更少的數據來實現深度學習模型的泛化

那為什麼現在過參數化(Overparametrized)的深度學習模型能夠泛化呢?

這是因為現在的深度學習模型與之前的模型相比,一個核心區別就在於:此前的傳統觀點認為,當數據數量遠超過參數數量時,模型才能泛化;而在深度學習時代,觀點則相反,認為成功的模型應該有更多的參數、更少的數據量。所以現在深度學習模型要實現泛化,需要的參數多於數據量。

然而在深度學習的時代,模型的泛化都非常難以解釋,原因就是很多傳統的觀點並不再適用了。但是有一個傳統的觀點還是有效的,它就是奧卡姆剃刀定律(Occam's Razor),指的是低複雜度的模型也可能

泛化得很好。

不過這種「低複雜度」其實是很難定義的,因此更核心的問題是如何正確定義模型複雜度,以及我們可以通過什麼方法能衡量並找到正確定義的複雜度。這是他們希望通過一些理論研究來解決的問題。

常見的方法是隱式的正則化方法,分析該方法可以聚焦於兩個方面:第一,算法更偏好低複雜度的方案;第二,低複雜度的模型泛化得很好。分析好這兩個方面,就可以理解現有的算法,同時探索新的度量複雜度的方法——因為算法偏好的複雜度基本就是正確的複雜度度量方法。

馬騰宇以其團隊開展的一些工作為例闡述了一些發現:

  • 第一,在模型訓練和收斂方面,學習率至關重要。例如在他們最近的一篇 NeurIPS 論文中證明了,一個使用了大學習率的兩層神經網絡,只能表示線性的函數,因而即使使用了很複雜的模型,在有噪聲的情況下也只能表示一些非常簡單的解,從而使得模型要比想象中更簡單些,這實際上是噪聲在深度學習中起到了正則化的作用。

  • 第二,初始化方法對模型的複雜度,也有同樣的效果。例如 Chizat Bach 在 2019 年發表了一篇論文,證明了大的初始化狀態更容易得到最小的神經切線核範數解。而他們自己的一些工作,則證明了小的初始化更偏向於得到更加「豐富」的狀態,會比核狀態更有意思,比如說最小的 L1 解或者原子核範數解。Woodworth 等人有一項工作基本上就說明:一個較小的初始化的模型,會收斂到一個最小的 L1 解而不是 L2 解上。

這些工作的核心思想是,不同的算法有不同的偏好,而不同的偏好則會有不同的複雜度量,學習率會有偏好,初始化狀態也有偏好。

二、隱式/算法的正則化是理解深度學習的唯一方法嗎?

如果想要理解深度學習,是不是隻有理解隱式/算法的正則化這一種方法呢?

對此,馬騰宇認為應該要重新回顧一下經典的方法——理解顯式的正則化方法。他表示,顯式的正則化方法確實也值得被大家

關注,而且從短期來講,它可能是一個更有成效的方法。

斯坦福大学马腾宇:无法理解现有的深度学习算法?那就设计一个能理解的

隱式/算法的正則化方法,為了達到要求,需要對算法進行正則化,算法會傾向於得出低複雜度的解。然而從很多算法正則化相關的論文中,他們發現在說明「算法傾向於得出低複雜度的解」方面遭遇瓶頸,而在說明「低複雜度的解泛化得更好」方面則比較簡單。

因此,顯式的正則化方法可能是理解深度學習更好的選擇。

在這種經典的機器學習範式下,重點關注的則是研究怎樣的複雜度可以讓模型實現更好的泛化性能。而對於「算法傾向於得出低複雜度的解」這一研究瓶頸,則「全看運氣」。

顯式的正則化方法的不足點是需要改變算法,因為正則化複雜度勢必就會改變算法。然而其優勢在於,不僅僅能夠理解現有的算法,還可以設計一些新的複雜度度量或正則器,設計一些新的算法,並將優化和統計數據分離開來。

他指出,最近機器學習領域的一個很火的話題是「雙重下降」(Double Descent)現象,就是說測試誤差並不是單一下降的,而是雙重下降。而最近他們在一項工作中,嘗試展示的則是在將算法正則化之後,可能就不會再出現雙重下降現象。

2019 年 Nagarajan 等人的一篇 NeurIPS 最佳論文獎展示了一致收斂無法說明深度學習中發生的現象。他們舉出了一個反例來說明這一點,雖然這個反例非常令人信服,但是僅僅是針對現有算法成立的一個反例。即算法加入正則化之後,這些反例很有可能就不再成立了。

那如何檢驗是否做到了將優化和統計數據分離呢?

方法則是,模型在正則化目標函數後,不管使用什麼算法都能實現同樣的泛化能力,這就能說明優化和統計數據分離了。

馬騰宇表示,他們現在也證明了能夠使用顯式的正則化方法來替代隱式的正則化方法,雖然還無法完全替代,但他相信正在朝著這個方向前進。

三、無法理解現有的深度學習算法?那就設計一個能理解的!

在當下 AI 界的普遍認知中,深度學習的內在機理無法理解,本質上變成了一個科學問題。對此,馬騰宇指出,計算機科學跟物理、生物等傳統科學的不同之處在於:可以不斷地設計新的算法。

科學研究的內容更多的是世界上已經發生或存在的客觀現象(比如黑洞),而在計算機科學中,研究者可以不研究發什麼什麼,而是去研究任何想要研究的事情。

他呼籲道:「雖然我們無法理解現有的深度學習算法,但我們可以設計我們既能理解又能保證有效的新算法。我認為計算機科學領域的研究者可以把研究做得更主動一些。」

報告中,馬騰宇還基於自己近期的研究工作,事無鉅細地分享了顯式正則化的具體研究示例,AI 科技評論這裡附上馬博士 PPT 的相關內容:

斯坦福大学马腾宇:无法理解现有的深度学习算法?那就设计一个能理解的
斯坦福大学马腾宇:无法理解现有的深度学习算法?那就设计一个能理解的斯坦福大学马腾宇:无法理解现有的深度学习算法?那就设计一个能理解的
斯坦福大学马腾宇:无法理解现有的深度学习算法?那就设计一个能理解的斯坦福大学马腾宇:无法理解现有的深度学习算法?那就设计一个能理解的
斯坦福大学马腾宇:无法理解现有的深度学习算法?那就设计一个能理解的斯坦福大学马腾宇:无法理解现有的深度学习算法?那就设计一个能理解的
斯坦福大学马腾宇:无法理解现有的深度学习算法?那就设计一个能理解的斯坦福大学马腾宇:无法理解现有的深度学习算法?那就设计一个能理解的
斯坦福大学马腾宇:无法理解现有的深度学习算法?那就设计一个能理解的斯坦福大学马腾宇:无法理解现有的深度学习算法?那就设计一个能理解的
斯坦福大学马腾宇:无法理解现有的深度学习算法?那就设计一个能理解的


分享到:


相關文章: