深度学习在诸多领域取得了巨大的成功,但是深度学习背后的基础理论确相对有些滞后。
其中一个重要的问题就是深度学习模型的泛化问题
按照经典的机器学习泛化理论,模型参数量越大,模型的拟合能力越强,但泛化也就会更差。
但是深度学习中并没有观察到这种trade-off的现象。
通常深度学习的模型有着巨大的参数量, 通常比训练数据要多得多,按照经典泛化理论,这样的模型应该泛化会很差。
实践中,在真实数据上训练的深度学习模型通常具有很好泛化性能,增大模型的参数量,并不会使得泛化变差。这个现象无法被经典的机器学习泛化理论解释。
来自快手的刘锦龙博士等人在 ICLR 2020 上发表了《Understanding Why Neural Networks Generalize Well Through GSNR of Parameters》一文,提出从梯度信噪比的角度来理解这一个悖论。他们认为深度学习的泛化能力和我们用来训练它的梯度下降这种优化方法是密切相关的。
AI 科技评论曾推出过这篇文章的文字解读,可参考:《ICLR 2020 | 模型参数这么多,泛化能力为什么还能这么强?》
此外,我们特邀论文一作刘锦龙博士为我们直播分享他们在这方面的研究工作。
直播信息
直播主题:从梯度信噪比来理解深度学习泛化性能为什么这么好
直播时间:2020年4月30日(周四)晚20:00整
论文信息
标题:Understanding Why Neural Networks Generalize Well Through GSNR of Parameters
下载链接:https://openreview.net/forum?id=HyevIJStwH
分享背景:
泛化性能问题是深度学习的一个基础理论问题,传统的泛化理论在解释深度学习的泛化性能上遇到困难。本文中提出一个全新的角度来理解深度学习的泛化性能问题。
分享提纲:
1. Motivation:深度学习的泛化性能为什么这么好?
2.一步泛化比例和梯度信噪比的定义
3.主要结论:训练过程中梯度信噪比越大,网络泛化性能越好,结论的试验验证
閱讀更多 AI科技評論 的文章