什么是数据科学?一种将数据转化为价值的方法

数据科学是一种将业务数据变成资产的方法,该方法有助于组织提高收入、降低成本、抓住商机、改善客户体验等。

什么是数据科学?

数据科学是这样一种方法——用统计分析和机器学习等一系列方法从结构化和非结构化数据中获得洞察。对于大多数组织而言,数据科学用来将数据转化为价值,这些价值可能以改善收入、降低成本、业务敏捷性、改善客户体验、开发新产品等形式体现出来。

RiskIQ的首席数据科学家Adam Hunt问道:“如果你想的话,你可以获取大量的数据,但是如果你不打算用它做任何事情,把它变成有趣的东西,它又有何用?正是数据科学使这些数据变得有意义的”。

数据科学与分析

虽然这两者密切相关,但人们往往将数据分析视为数据科学的一个组成部分,用于了解组织的数据。数据科学利用分析的输出结果来解决问题。

Hunt说:“数据科学得出了能推动你的数据发展的结论。分析就是要弄清楚数据长什么样子,但只有数据本身才会产生结果。如果你没有用数据解决问题,如果你只是在做研究,那么这充其量是在做分析。如果你确实要利用结果来解释一些事情,你将从分析转向科学。与其说数据科学与数据的查看,检查和绘制有关,不如说它与实际问题的解决有关。”

数据科学与大数据

人们往往认为数据科学和大数据休戚相关,但数据科学家不仅仅使用大数据。数据科学可用从各种规模的数据中提取价值,无论是结构化的、非结构化的还是半结构化的数据。

很多情况下,大数据对数据科学团队很有用,因为你拥有的数据越多,你在特定模型中可以包含的参数就越多。

Hunt说:“有了大数据,你就不见得会受到小数据的维度约束。大数据确实在某些方面有所帮助,但多多不一定益善。如果你强行将股市行情显示在一栏里,这不管用。但如果你只看一两天的行情,你可以这么做。”

数据科学的商业价值

数据科学的商业价值取决于它所服务的组织。数据科学有助于组织创建能预测硬件故障的工具,它可以让组织实施维护并防止意外停机。它可用来预测超市货架上要摆放什么物品,或根据属性预测某个产品的受欢迎程度。

MapR Technologies的首席应用架构师Ted Dunning说:“与业务团队融为一体,这是数据科学团队所能拥有的最大价值。标新立异者(真正的创新者)几乎必然会发现人们原本并不指望发现的价值或价值漏损,他们往往会让业内人士感到惊讶。价值并不存在于人们一开始认为它应该存在的地方。”

组织数据科学团队

数据科学往往是一门兴师动众的学科。数据科学家是大多数数据科学团队的前沿核心,但从数据转向分析,然后将分析转化为生产价值,这需要一系列技能和众多角色的参与。例如,数据分析师应该参与数据研究,然后才将数据呈现给团队,并维护数据模型。数据工程师必须构建数据管道,以丰富数据集,使数据可供公司其他人使用。

eBates的分析副总裁Mark Stange-Tregear表示,从团队角度思考,而不是寻求“独角兽(将非线性思维与高等数学和统计知识以及编码能力相结合的人)”,这很重要。

Stange-Tregear解释说:“我认为数据工程并不是数据科学家的主要特征。我需要真正别出心裁的人。如果我可以找人来建模,评估统计数据,并将该模型的利弊传达给业务,那么我会聘请经验丰富到足以承接并实现该模型。”

将驻队方法应用到数据科学

有些组织宁肯将数据科学家与其他职能合并到一起,而不是孤立数据科学团队。例如,MapR的Dunning建议组织将数据运维(DataOps)方法运用到数据科学,将数据科学家安插到负有业务线职责的数据运维团队中。这些数据运维团队往往是跨职能的,遍及运营、软件工程、架构和规划以及产品管理等“技能行会”,可以从头到尾编排数据、工具、代码和环境。数据运维团队往往认为分析管道类似于生产线。

Dunning说:“从某种抽象的意义上说,数据科学并不是数据科学团队的分内职责。你想通过数据从这部分业务中获取价值。一个孤立的数据科学团队可能想部署最复杂的模型。驻队数据科学家希望最终成果是可维护。他们在解决方案的选择上十分功利,十分务实。”

也就是说,数据科学家不一定常驻在数据运维团队中。

Dunning说:“团队中通常会有一位随队一段时间的数据科学家。他的能力和敏感度会渐渐感染其他人。然后团队中的某个人会担任数据工程师,这有点像低配版的数据科学家。随后驻队数据科学家本人会继续驻到另一个团队。这是一个变动不居的情况。”

数据科学的目标和可交付成果

数据科学的目标是构建这样一种手段——从数据中获取以业务为中心的洞察。这就需要人们理解企业中价值和信息的流动方式,并利用这种理解来发现商机的能力。虽然这可能涉及一次性项目,但更典型的情况是,数据科学团队会设法发现关键的数据资产,这些资产可以转化为数据管道,为可维护的工具和解决方案提供支持。例如银行使用的信用卡欺诈监控解决方案,或用于优化风电场中风力涡轮机布局的工具。

渐渐地,传达团队所做的事情的演示也成了重要的可交付成果。

RiskIQ的Hunt说:“要确保他们将成果传达给公司的其它部门,这点非常重要。当一个数据科学团队长时间不明就里时,团队就会慢慢陷入困境。如果我们不经常讨论和推广这一做法,很多产品经理就会对此不以为然。”

数据科学的流程和方法

Hunt说,生产工程团队以预计的日程进入冲刺周期(sprint cycle)。这对数据科学团队来说通常很难做到,因为光是确认项目的可行性就要耗费大量的时间。

Hunt说:“很多时候,第一周,甚至第一个月,都是在做研究——收集数据,清理数据,我们有能力回答问题吗?我们能否高效地做到这一点?我们花费大量的时间进行设计和研究,远远超过常规的工程团队在这方面的表现。”

对于Hunt来说,数据科学应该遵循科学方法,尽管他指出事实并非总是如此,或总是可行。

Hunt说:“你设法从数据中获得一些洞察。为了做到屡试不爽,确保你不是在吹嘘,你必须用科学方法准确地证明假设,但我认为很多数据科学家实际上根本没有使用任何科学。”

Hunt说,真正的科学不是一蹴而就的。你要花一点时间证实自己的假设,然后花很多时间设法证明自己是错的。

Hunt说:“尽管有了数据科学,但你几乎总是在一家不想花时间深入研究数据,验证这些假说的营利性公司。我们试图回答的很多问题都是短时内出现的问题。例如,在安全方面,我们要设法在明天找到威胁源(threat actor),而不是明年——趁威胁还没广泛传播。”

Hunt说,因此,数据科学往往意味着要采用“足够好”的答案,而不是最佳答案。然而,危险就在于,结果可能会成为确认偏误(confirmation bias)或过拟合(overfitting)的牺牲品。

“如果这还不是科学的话,这就意味着你正在用科学方法来证实假说,那么你所做的事情不过是把数据丢给算法去处理而已。”

数据科学工具

数据科学团队使用各种各样的工具,包括SQL、Python、R、Java,以及Hive、oozie和TensorFlow等一系列开源项目。这些工具用于各种与数据相关的任务,从提取和清理数据到通过统计方法或机器学习对数据进行算法分析。

MapR的Dunning说:“数据科学家所需的首要工具是眼和手。缔造价值的往往是最简单的事物,这毫不稀奇。用批判的眼光看待数据的简单的方面。探求事物如何运作的蛛丝马迹。”

工具使数据科学团队眼明手快。

Dunning说:“你需要优秀的可视化工具。编程工具Python现在很受欢迎。你需要真正能用于建模的工具。只用一个工具是无法维持的。”

Dunning说,当MapR调查其客户数据团队时,团队至少会用到5个建模工具,甚至还没有涉及到可视化工具。

Dunning说:“事物变得越来越多元化,因为人们变得越来越多疑。其它建模技术会产生更好的模型吗?”

从事数据科学的薪水

PayScale的数据指出,以下是一些与数据科学相关的最受欢迎的职位和每个职位的平均薪水:

•分析经理:$82K-$120K

•商业智能分析师:$55K-$81K

• 数据分析师:$45K-$68K

• 数据架构师:$75K-$152K

• 数据工程师:$63K-$131K

• 数据科学家:$79K-$120K

• 研究分析师:$43K-$63K

• 研究科学家:$58K-$97K

• 统计师:$58K-$90K

数据科学技能

数据科学是一门不断发展的学科,参与其中的方法有很多。虽然数据科学学位课程的数量正在迅速增加,但组织在找数据科学家时不一定看重这些课程。

eBates的Stange-Tregear说,他要找有统计学背景的候选人,这样他们就知道自己是否在研究真实的结果,研究能将结果置入情境的领域知识,研究可以让他们向业务用户传达结果的沟通技巧。

他说:“如果我有一位可以包揽所有工作的数据科学家,那么让数据工程团队来实现这个,我是不放心的。”

RiskIQ的Hunt被拥有博士学位的候选人所吸引。

Hunt说:“我偏向于拥有博士学位的人,但我不会放弃那些有很多经验的人。博士学位向我传达的信息是,你能够对一个课题进行非常深入的研究,并且将这些信息传达给其他人。但是,拥有坚实的背景或个人项目是非常有趣的。”

Hunt说,他特别想找物理、数学、计算机科学、经济学甚至社会科学领域的博士生。他不会对拥有数据科学或分析学位的申请人嗤之以鼻,但他确实有所保留。他说:“我的个人经历告诉我,后者非常有用,但它们过于关注模型的运作,而不是思维。”

MapR的Dunning不太关心申请人名号,他更在意他们是否能秀出新的事物。Dunning说:“招聘数据科学家时,我的首要问题是:参加面试的人是否让我学到了什么?我要找的人并不是能我所能者,我热切希望找到能我所不能者,或者那些可以教导团队事务的人。”

Dunning指出,一些最优秀的数据科学家或数据科学领域的领导者都有非常规的背景,一些与他合作过的最优秀的人包括:一个上大学前做了6年园艺工作的人、一个有美术背景的人、一个有法国文学学位的人,还有一个是没怎么受过计算机培训的新闻专业学生。

Dunning说:“你要从数据感知(而非知道很多公式)的角度来考验人。你要的是研究事物,理解事物的能力。”

数据科学培训

鉴于目前数据科学人才短缺,很多组织正在制定培养内部数据科学人才的计划。

训练营是培训工人,使他们担任数据科学职位的另一个快速发展的途径。

数据科学学位

《美国新闻和世界报道(US News and World Report)》称,以下是数据科学的顶尖研究生学位课程:

• 斯坦福大学数据科学专业的统计学硕士

• 伯克利信息学院的信息与数据科学硕士

• 卡内基梅隆大学的计算数据科学硕士

• 哈佛大学约翰保尔森工程与应用科学学院的数据科学理学硕士

• 华盛顿大学的数据科学理学硕士

• 约翰霍普金斯大学怀廷工程学院的数据科学理学硕士

• 芝加哥大学格拉姆学院的分析学硕士

数据科学认证

组织需要有分析数据技术专业知识的数据科学家和分析师。他们还需要能将需求转换为系统的大数据系统架构师,需要能构建和维护数据管道的数据工程师,需要了解Hadoop集群等技术的开发人员,以及将这一切联系在一起的系统管理员和管理者。候选人证明自己有合适技能的一种方法是亮出证书。

大名鼎鼎的大数据和数据分析认证包括:

• Analytics: Optimizing Big Data Certificate

• Certificate in Engineering Excellence Big Data Analytics and Optimization (CPEE)

• Certification of Professional Achievement in Data Sciences

• Certified Analytics Professional

• Cloudera Certified Associate (CCA) AdministratorCloudera

• Cloudera Certified Associate (CCA) Data AnalystCloudera

• Cloudera Certified Associate (CCA) Spark and Hadoop DeveloperCloudera

• Cloudera Certified Professional (CCP): Data EngineerCloudera• EMC Proven Professional Data Scientist Associate (EMCDSA)EMC

• IBM Certified Data Architect – Big DataIBM

• IBM Certified Data Engineer – Big DataIBM

• Microsoft Certified Solutions Expert (MCSE): Data Management and AnalyticsMicrosoft

• Mining Massive Data Sets Graduate Certificate

• MongoDB Certified DBA AssociateMongoDB

• MongoDB Certified Developer AssociateMongoDB

• Oracle Business Intelligence Foundation Suite 11 Certified Implementation SpecialistOracle

• SAS Certified Big Data Professional

• SAS Certified Data Scientist Using SAS 9

• Stanford Data Mining and Applications Graduate Certificate


分享到:


相關文章: