纸上得来终觉浅:四个你可能无法从书本中学习到的机器学习技巧

纸上得来终觉浅:四个你可能无法从书本中学习到的机器学习技巧

在过去的几年里,机器学习的优异表现使得它在各领域都突飞猛进的发展。由于有充足的资金支持,激动人心和妙趣横生的科技产出,广阔的成长空间,越来越多的人开始涉足学习机器学习相关的知识。现在比较主流的获取相关知识的方式是学校和在线课程。但机器学习的算法最后会用在真实世界的商业问题中,并成为为客户创造价值的工具。机器学习模型的算法精度,可解释性,速度和存储能力以及最后可创造出的价值都需要考虑在内。

本文我们将要谈谈四个无法从学校或各种线上平台学习到的机器学习技巧,这些技巧有助于机器学习算法应用于真实的世界中,创造实际价值。希望这篇文章能带给你一些实践中的启发和价值。

衔接机器学习算法与商业目标

包括机器学习在内的软件行业中,我们都需要注意将理论技能和商业目标联系起来。如果想成为领域内的专家,这两方面的知识都是必不可少的。

在教室里我们能学到很多理论技能方面的知识:如何编写Python程序,机器学习和数据科学的算法,技术报告的撰写等等,这些零碎的知识点往往与商业领域孤立脱离。当你需要在该领域内实际工作时,你工作的每一个细节问题均与实际的商业相联系。为什么你的领导要你优化现在系统的精度?因为更好的精度意味着更多的价值,更好的产品,从而意味着更多的客户和收入!

为了对问题有更好更深入的理解,我们需要抓住关键、聚焦重点。 当你在行业内有声望时,你也许有机会将商业目标转变为技术目标,为了完成这项工作,科技手段是不可或缺的途径。当创造实际价值时,一定要注意将科技与商业联系思考。一定要记住理论与实际相结合是我们取得成功的有力保证!

模型选择

纸上得来终觉浅:四个你可能无法从书本中学习到的机器学习技巧

在学校中,我们学到了各种各样的机器学习模型:线性回归模型,支持向量机,神经网络...好像有成百上千种那么多!那么问题来了,我们该用哪种?你也许之前用过他们种的许多种:碰巧编写过某几种算法或是从TensorFlow和Scikit Learn这样的库中调用过。你想过为什么要选择这种算法吗?现在深度学习算法十分流行,我们可以直接默认使用这种算法吗?

正如科技和工程中的本质特征一样:所有的方法都需要权衡利弊。在实际应用的过程中,需要仔细权衡每种算法是否适用于该种模型。在机器学习领域里“没有免费的午餐”。即:没有一种机器学习算法是万能的,可适用于全部的问题。不同种类机器学习算法的表现强烈的依赖于数据结构和数据量。除非我们使用算法来检验结果,不然无法事先判别判别模型有效性。

纸上得来终觉浅:四个你可能无法从书本中学习到的机器学习技巧

一种算法并不永远比另外一种好用,每种机器学习的算法均有其特点,可以用来快速选择和协调各种参数。比如:神经网络(和深度学习)一般准确性较高但是可解释性较差。当你需要确切的知道结果的来源时,就不适宜选择这种方法;但是如果你只关心最后的输出结果,那么这种方法就非常适合!而对于某些商业问题来说,从最简单的模型开始是一个不错的选择。在工程实践中,往往都是先开发出一个最简单的可用模型而后再逐渐优化的。一开始就使用复杂的模型想要覆盖所有的情况,会让你的工作陷入很多的困难中去。

模型部署

机器学习教育过程中通常倾向于深入学习机器学习算法,教导我们从技术层面上理解他们的运作方式。一旦你的模型被完全训练,将用某些数据集来标记模型的有效性。一旦模型被验证可以很好的完成任务,全套的软件产品将被进行部署。

纸上得来终觉浅:四个你可能无法从书本中学习到的机器学习技巧

站在更高的层面来理解部署的含义:将算法插入到已有的系统中去。模型的功能在于当给出输入时能做出某种对于系统的有效预测,因此,从系统层面理解整个软件是十分必要的。

在学校中所学的是技术层面的知识基石,在商业中应用和发现产品的价值是最终目标,将软件系统中各个部分有机的结合起来是处于中间的必经步骤。我们需要明白系统的架构,不同区域之间的连接,然后你才能从宏观层面上把握模型在系统中所处的地位和发挥的作用。在这样的基础上衔接系统中不同模块的功能、扬长避短才能发挥出模型最大的效用。

投入与产出的平衡

当在学校或者在在线课程的学习中,我们有充分的时间进行实验。我们甚至可以一直做研究,发现最新最好的算法。但是在现实生活中,这样却不是最有效的方式。商业讲究在有效的时间和资源内将利益最大化,不可能花一整天都额时间来验证手边所有的方法中哪一种是最好的方法。我们需要找到最有效的途径来决定最优的方法。

纸上得来终觉浅:四个你可能无法从书本中学习到的机器学习技巧

我们需要花最少的钱取得最大的效果,也许有一种新的优秀的回归算法,但是它在技术上既不成熟,还可能在实施过程中消耗大量的时间。这个时候,与其花费大量的时间修改算法,不如通过输入更多的数据来训练现有的模型。你的算法是否比原来的算法更加精确并不是关键,通过各种各样的手段,更加快速的达到结果优化的目的才是关键。

在学校中的惯用思维是从单方面着眼解决问题,在工作中却需要从各方面权衡,找到最高效的方法并应用。机器学习和所有其他的软件简而言之都是一系列工具,花最少的钱取得最大的效果意味着如何最好的利用这些工具来解决工作中的问题。目标导向的实际工作意味着解决问题才是关键。

-The End-

将门是一家专注于发掘、加速并投资技术创新激活商业价值的创业公司的新型创投机构,旗下设有将门创新服务、将门技术社群以及将门投资基金。

将门创新服务

专注于使创新的技术落地于真正的应用场景,激活和实现全新的商业价值,服务于行业领先企业和技术创新型创业公司。

将门技术社群专注于帮助技术创新型的创业公司提供来自产、学、研、创领域的核心技术专家的技术分享和学习内容,使创新成为持续的核心竞争力。

将门投资基金专注于投资通过技术创新激活商业场景,实现商业价值的初创企业,关注技术领域包括机器智能、物联网、自然人机交互、企业计算。在两年的时间里,将门投资基金已经投资了包括量化派、码隆科技、禾赛科技、景驰科技、杉数科技、迪英加科技等数十家具有高成长潜力的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: [email protected]

纸上得来终觉浅:四个你可能无法从书本中学习到的机器学习技巧

点击右上角,把文章朋友圈

将门创投

让创新获得认可!

[email protected]


分享到:


相關文章: