如何为回归问题选择一个合适的算法呢?我们先从模型的优缺点讲起……

如何为回归问题选择一个合适的算法呢?我们先从模型的优缺点讲起……

「2018将门年度创新峰会」

倒计时 2天!

3月24日(本周六),我“门”将在北京举办首届将门年度创新峰会,届时将携手科技圈的技术大咖们,并首次集结来自交通、医疗、零售、生活等领域的数十家行业引领大企业以及优秀的创业企业们,共同探讨AI最新技术创新趋势、解读技术激活商业场景的热点话题、深究AI落地产业发展的现在及未来,共同向创新者致敬。

编译:T.R

任何一个机器学习问题都有着不止一种算法来解决,在机器学习领域“没有免费的午餐”的意思就是没有一个对于所有问题都很好的算法。机器学习算法的表现很大程度上与数据的结构和规模有关。所以判断算法性能最好的办法就是在数据上运行比较结果。

不过与此同时我们对于算法的优缺点有一定的了解可以帮助我们找需要的算法。本文将会介绍三种回归算法及其优缺点,将会为我们理解和选择算法提供很好的帮助。

线性和多项式回归

如何为回归问题选择一个合适的算法呢?我们先从模型的优缺点讲起……

在这一简单的模型中,单变量线性回归的任务是建立起单个输入的独立变量与因变量之间的线性关系;而多变量回归则意味着要建立多个独立输入变量与输出变量之间的关系。除此之外,非线性的多项式回归则将输入变量进行一系列非线性组合以建立与输出之间的关系,但这需要拥有输入输出之间关系的一定知识。训练回归算法模型一般使用随机梯度下降法(SGD)。

优点:

  • 建模迅速,对于小数据量、简单的关系很有效;

  • 线性回归模型十分容易理解,有利于决策分析。

缺点:

  • 对于非线性数据或者数据特征间具有相关性多项式回归难以建模;

  • 难以很好地表达高度复杂的数据。

神经网络

如何为回归问题选择一个合适的算法呢?我们先从模型的优缺点讲起……

神经网络由一系列称为神经元的节点通过内部网络连接而成,数据的特征通过输入层被逐级传递到网络中,形成多个特征的线性组合,每个特征会与网络中的权重相互作用。随后神经元对线性组合进行非线性变化,这使得神经网络模型具有对多特征复杂的非线性表征能力。神经网络可以具有多层结构,以增强对于输入数据特征的表征。人们一般利用随机梯度下降法和反向传播法来对神经网络进行训练,请参照上述图解。

优点:

  • 多层的非线性结构可以表达十分复杂的非线性关系;

  • 模型的灵活性使得我们不需要关心数据的结构;

  • 数据越多网络表现越好。

缺点:

  • 模型过于复杂,难以解释;

  • 训练过程需要强大算力、并且需要微调超参数;

  • 对数据量依赖大,但常规机器学习问题则使用较小量数据。

回归树和回归森林

如何为回归问题选择一个合适的算法呢?我们先从模型的优缺点讲起……

优点:

  • 具有很高的复杂度和高度的非线性关系,比多项式拟合拥有更好的效果;

  • 模型容易理解和阐述,训练过程中的决策边界容易实践和理解。

缺点:

  • 由于决策树有过拟合的倾向,完整的决策树模型包含很多过于复杂和非必须的结构。但可以通过扩大随机森林或者剪枝的方法来缓解这一问题;

  • 较大的随机数表现很好,但是却带来了运行速度慢和内存消耗高的问题。

-The End-

将门2018招聘看这里!

企业战略合作、投资总监/经理、财务总监、新媒体运营、技术专家、行业专家等多个岗位期待您的加入~

也欢迎您转给身边优秀的朋友!推荐成功、一经录用将获得15000元现金作为答谢!

将门是一家专注于

发掘、加速并投资技术创新激活商业价值的创业公司的创投机构,旗下设有将门创新服务、将门技术社群以及将门投资基金。

将门创新服务专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门投资基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在两年的时间里,将门投资基金已经投资了包括量化派、码隆科技、禾赛科技、伟景智能、Convertlab、迪英加科技等十几家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: [email protected]

如何为回归问题选择一个合适的算法呢?我们先从模型的优缺点讲起……

点击右上角,把文章朋友圈

将门创投

让创新获得认可!

[email protected]


分享到:


相關文章: