有哪些提升神经网络性能的方法？問答頭條網

2018-07-05 12:41:52 佚名

riogarfield

Rohith Gandhi近日在towardsdatascience发文，简要介绍了提升神经网络性能的方法，如检查过拟合、调参、算法集成、数据增强。

神经网络是一种在很多用例中能够提供最优准确率的机器学习算法。但是，很多时候我们构建的神经网络的准确率可能无法令人满意，或者无法让我们在数据科学竞赛中拿到领先名次。所以，我们总是在寻求更好的方式来改善模型的性能。有很多技术可以帮助我们达到这个目标。本文将介绍这些技术，帮助大家构建更准确的神经网络。

检查过拟合

如何鉴别模型是否过拟合呢？你仅仅需要交叉检查训练准确率和测试准确率。如果训练准确率远远高出了测试准确率，那么可以断定你的模型是过拟合了。你也可以在图中画出预测点来验证。下面是一些避免过拟合的技术：

数据正则化（L1 或 L2）；
Dropout：随机丢弃一些神经元之间的连接，强制神经网络寻找新的路径并泛化；
早停（Early Stopping）：促使神经网络训练早点停止，以减少在测试集中的误差。

超参数调节

超参数是你必须给网络初始化的值，这些数值不能在训练的过程中学到。在卷积神经网络中，这些超参数包括：核大小、神经网络层数、激活函数、损失函数、所用的优化器（梯度下降、RMSprop）、批大小、训练的 epoch 数量等等。

每个神经网络都会有最佳超参数组合，这组参数能够得到最大的准确率。你也许会问，「有这么多超参数，我如何选择每个参数呢？」不幸的是，对每个神经网络而言，并没有确定最佳超参数组合的直接方法，所以通常都是通过反复试验得到的。但是也有一些关于上述超参数的最佳实践：

学习率：选择最优学习率是很重要的，因为它决定了神经网络是否可以收敛到全局最小值。选择较高的学习率几乎从来不能到达全局最小值，因为你很可能跳过它。所以，你总是在全局最小值附近，但是从未收敛到全局最小值。选择较小的学习率有助于神经网络收敛到全局最小值，但是会花费很多时间。这样你必须用更多的时间来训练神经网络。较小的学习率也更可能使神经网络困在局部极小值里面，也就是说，神经网络会收敛到一个局部极小值，而且因为学习率比较小，它无法跳出局部极小值。所以，在设置学习率的时候你必须非常谨慎。
神经网络架构：并不存在能够在所有的测试集中带来高准确率的标准网络架构。你必须实验，尝试不同的架构，从实验结果进行推断，然后再尝试。我建议使用已经得到验证的架构，而不是构建自己的网络架构。例如：对于图像识别任务，有 VGG net、Resnet、谷歌的 Inception 网络等。这些都是开源的，而且已经被证明具有较高的准确率。所以你可以把这些架构复制过来，然后根据自己的目的做一些调整。
优化器和损失函数：这方面有很多可供选择。事实上，如果有必要，你可以自定义损失函数。常用的优化器有 RMSprop、随机梯度下降和 Adam。这些优化器貌似在很多用例中都可以起作用。如果你的任务是分类任务，那么常用的损失函数是类别交叉熵。如果你在执行回归任务，那么均方差是最常用的损失函数。你可以自由地使用这些优化器超参数进行试验，也可以使用不同的优化器和损失函数。
批大小和 epoch 次数：同样，没有适用于所有用例的批大小和 epoch 次数的标准值。你必须进行试验，尝试不同的选择。在通常的实践中，批大小被设置为 8、16、32……epoch 次数则取决于开发者的偏好以及他/她所拥有的计算资源。
激活函数：激活函数映射非线性函数输入和输出。激活函数是特别重要的，选择合适的激活函数有助于模型学习得更好。现在，整流线性单元（ReLU）是最广泛使用的激活函数，因为它解决了梯度消失的问题。更早时候，Sigmoid 和 Tanh 函数都是最常用的激活函数。但是它们都会遇到梯度消失的问题，即在反向传播中，梯度在到达初始层的过程中，值在变小，趋向于 0。这不利于神经网络向具有更深层的结构扩展。ReLU 克服了这个问题，因此也就可以允许神经网络扩展到更深的层。

ReLU 激活函数

算法集成

如果单个神经网络不像你期待的那样准确，那么你可以创建一个神经网络集成，结合多个网络的预测能力。你可以选择不同的神经网络架构，在不同部分的数据集上训练它们，然后使用它们的集合预测能力在测试集上达到较高的准确率。假设你在构建一个猫狗分类器，0 代表猫，1 代表狗。当组合不同的猫狗分类器时，基于单个分类器之间的皮尔逊相关系数，集成算法的准确率有了提升。让我们看一个例子，拿 3 个模型来衡量它们各自的准确率：

3 个模型的皮尔逊相关系数很高。所以，集成它们并不会提升准确率。如果我们使用多数投票的方式来组合这三个模型，会得到下面的结果：

现在，让我们来看一组输出具备较低皮尔逊相关系数的模型：

当我们组合这三个弱学习器的时候，会得到以下结果：

正如你在上面所看到的，具有低皮尔逊相关系数的弱学习器的组合优于具有较高皮尔逊相关系数的学习器的组合。

缺乏数据