「直播」模型參數這麼多,泛化能力為什麼還能這麼強?

「直播」模型參數這麼多,泛化能力為什麼還能這麼強?| ICLR 2020

深度學習在諸多領域取得了巨大的成功,但是深度學習背後的基礎理論確相對有些滯後。

其中一個重要的問題就是深度學習模型的泛化問題

按照經典的機器學習泛化理論,模型參數量越大,模型的擬合能力越強,但泛化也就會更差。

但是深度學習中並沒有觀察到這種trade-off的現象。

通常深度學習的模型有著巨大的參數量, 通常比訓練數據要多得多,按照經典泛化理論,這樣的模型應該泛化會很差。

實踐中,在真實數據上訓練的深度學習模型通常具有很好泛化性能,增大模型的參數量,並不會使得泛化變差。這個現象無法被經典的機器學習泛化理論解釋。

來自快手的劉錦龍博士等人在 ICLR 2020 上發表了《Understanding Why Neural Networks Generalize Well Through GSNR of Parameters》一文,提出從梯度信噪比的角度來理解這一個悖論。他們認為深度學習的泛化能力和我們用來訓練它的梯度下降這種優化方法是密切相關的。

AI 科技評論曾推出過這篇文章的文字解讀,可參考:《ICLR 2020 | 模型參數這麼多,泛化能力為什麼還能這麼強?》

此外,我們特邀論文一作劉錦龍博士為我們直播分享他們在這方面的研究工作。

直播信息

「直播」模型参数这么多,泛化能力为什么还能这么强?| ICLR 2020

直播主題:從梯度信噪比來理解深度學習泛化性能為什麼這麼好

直播時間:2020年4月30日(週四)晚20:00整

論文信息

標題:Understanding Why Neural Networks Generalize Well Through GSNR of Parameters

下載鏈接:https://openreview.net/forum?id=HyevIJStwH

分享背景:

泛化性能問題是深度學習的一個基礎理論問題,傳統的泛化理論在解釋深度學習的泛化性能上遇到困難。本文中提出一個全新的角度來理解深度學習的泛化性能問題。

分享提綱:

1. Motivation:深度學習的泛化性能為什麼這麼好?

2.一步泛化比例和梯度信噪比的定義

3.主要結論:訓練過程中梯度信噪比越大,網絡泛化性能越好,結論的試驗驗證


分享到:


相關文章: