一年一度的ICLR刚刚结束,本届共有2594篇投稿,687 篇被接收。其中:48篇 oral 108篇,spotlights 531篇, poster 录取率为 26.5%,相比去年的 31.4% 略有降低。
值得关注的是,受疫情影响,今年的ICLR大会转到了线上举行,成为了首个完全线上举行的人工智能领域顶会,并且参会人数暴增了一倍。
深度学习一直是ICLR投稿的热点,近日,国外一研究者精选了10篇深度学习领域的论文,供大家研读:
1. On Robustness of Neural Ordinary Differential Equations
简而言之,是对神经常微分方程或NeuralODE的鲁棒性的深入研究。将其用作构建更强大网络的基础。
论文:
https://openreview.net/forum?id=B1e9Y2NYvS
ODENet的体系结构,神经ODE块用作保维非线性映射。
2.Why Gradient Clipping Accelerates Training: A Theoretical Justification for Adaptivity
可证明的是,对于非平滑的非凸函数,渐变修剪可加速梯度下降。
论文:
https://openreview.net/forum?id=BJgnXpVYwS
代码:
https://github.com/JingzhaoZhang/why-clipping-accelerates
沿PTB数据集上AWD-LSTM的训练轨迹的对数刻度上的梯度范数与局部梯度Lipschitz常数。颜色条指示训练期间的迭代次数。
3.Target-Embedding Autoencoders for Supervised Representation Learning
目标嵌入自动编码器或TEA的新通用框架,用于监督预测。作者给出了理论和经验上的考虑。
论文:
https://openreview.net/forum?id=BygXFkSYDH
(a)特征嵌入和(b)目标嵌入自动编码器。实线对应于(主要)预测任务;(辅助)重建任务的虚线。共享的组件都参与其中。
4.Understanding and Robustifying Differentiable Architecture Search
通过查看架构的验证损失的Hessian特征值来研究DARTS(可区分架构搜索)的失败模式,并在分析的基础上提出稳健性。
论文:
https://openreview.net/forum?id=H1gDNyrKDS
代码:
https://github.com/automl/RobustDARTS
标准DARTS的不良细胞在空间S1-S4上找到。对于所有空间,DARTS大多选择无参数操作(跳过连接),甚至选择有害的Noise操作。图中显示的是CIFAR-10上的正常细胞。
5.Comparing Rewinding and Fine-tuning in Neural Network Pruning
除了在修剪后进行微调外,还可以在训练中更早地将权重或学习率调度到它们的值,然后从那里进行再训练,以在修剪神经网络时获得更高的准确性。
论文:
https://openreview.net/forum?id=S1gSj0NKvB
代码:
https://github.com/lottery-ticket/rewinding-iclr20-public
通过一次修剪即可在再训练时间内实现最佳的精度。
6.Neural Arithmetic Units
神经网络虽然能够逼近复杂函数,但是在精确的算术运算中却很差。对于深度学习研究人员而言,这项任务是一项长期的挑战。在这里,介绍了新颖的神经加法单元(NAU)和神经乘法单元(NMU),它们能够执行精确的加法/减法(NAU)并乘以向量的子集(MNU)。
论文:
https://openreview.net/forum?id=H1gNOeHKPS
代码:
https://github.com/AndreasMadsen/stable-nalu
NMU的可视化,其中权重(W i,j)控制1(同一性)或x i之间的门控,然后将每个中间结果显式相乘以形成z j。
7.The Break-Even Point on Optimization Trajectories of Deep Neural Networks
在深度神经网络训练的早期阶段,存在一个“收支平衡点”,它确定了整个优化轨迹的属性。
论文:
https://openreview.net/forum?id=r1g87C4KwB
使用CGD优化的简单CNN模型在CIFAR-10上训练轨迹的早期部分(在达到65%的训练准确度之前)的可视化,学习率η= 0.01(红色)和η= 0.001(蓝色)。训练轨迹上的每个模型(显示为一个点)由使用UMAP嵌入到二维空间中的测试预测表示。背景颜色表示梯度K的协方差的光谱范数(λ 1 ķ,左)和训练精度(右)。对于较低η,达到我们所说的盈亏平衡点后,轨迹向着特点是较大的λ区域转向1 ķ对于相同的训练精度。
8. Hoppity: Learning Graph Transformations To Detect And Fix Bugs In Programs
一种基于学习的方法,用于检测和修复Javascript中的错误。
论文:
https://openreview.net/forum?id=SJeqs6EFvB
示例程序说明了现有方法的局限性,包括基于规则的静态分析器和基于神经的错误预测器。
9.Selection via Proxy: Efficient Data Selection for Deep Learning
通过使用更小的代理模型执行数据选择,可以显着提高深度学习中数据选择的计算效率。
论文:
https://openreview.net/forum?id=HJg2b0VYDr
代码:
https://github.com/stanford-futuredata/selection-via-proxy
SVP应用于主动学习(左)和核心集选择(右)。在主动学习中,遵循与传统方法相同的训练和选择标记点的迭代过程,但是将目标模型替换为便宜的计算代理模型。对于核心集选择,使用代理模型学习了数据的特征表示,并使用它来选择点以训练更大,更准确的模型。在这两种情况下,发现代理模型和目标模型具有较高的等级相关性,从而导致相似的选择和下游结果。
10.And the Bit Goes Down: Revisiting the Quantization of Neural Networks
使用旨在更好地进行域内重构的结构化量化技术来压缩卷积神经网络。
论文:
https://openreview.net/forum?id=rJehVyrKwH
代码:
https://drive.google.com/file/d/12QK7onizf2ArpEBK706ly8bNfiM9cPzp/view?usp=sharing
我们的方法的说明。我们近似一个二元分类器ϕ,通过量化其权重将图像标记为狗或猫。标准方法:使用标准目标函数(1)量化s会产生分类器ϕb standard,该standard试图在整个输入空间上近似ϕ,因此对于域内输入可能表现不佳。我们的方法:用目标函数(2)量化s可以促进分类器ϕb activations,该activations对于域内输入表现良好。位于输入空间的阴影区域的图像被正确地分类φ activations但是φ standard的结果错误。
原文链接:
https://neptune.ai/blog/iclr-2020-deep-learning