大数据和数据挖掘的区别?

育儿奶爸


随着大数据的兴起,隐藏在大数据背后的相关技术也逐渐被揭开神秘的面纱,其中,数据挖掘即是大数据应用过程中非常重要的环节。以下是国内领先的移动大数据服务商极光大数据的副总裁陈宇针对数据挖掘技术的简析,并对比总结了大数据时代下的数据挖掘技术相较于传统数据挖掘的突出优势。

数据挖掘技术概要

从海量的数据库中选择、探索、识别出有效的、新颖的、具有潜在效用的乃至最终可理解的模式以获取商业利益的非平凡的过程就是Fayyad和Piatetsky-Shapiror在1996年提出的数据挖掘的定义。这个定义有三个要点:处理海量的数据;揭示企业运作中的内在规律;为企业运作提供直接决策分析,并带来巨大经济效益。

技术不断演进,社会不断发展,对于数据挖掘的定义也发生了一些变化。例如对于数据量级的变化,从海量已经到了巨量。在1996年的时候,人们是无法想象2017年我们将会处理如此巨大的数据。而数据处理的样本规模也在从采样发展到全量,例如极光大数据在处理关键人的同轨分析特征识别的时候,会处理几百亿的位置信息轨迹,从中提炼出具有相同轨迹的设备信息,从而通过设备信息关联出自然人的相互关系等等。

同时,相对于1996年,数据应用发掘企业的内在规律已经拓展到了社会运行特征、人群行为特征、经济发展特征等等各个方面。而数据挖掘的目的也不仅是为了经济效益,也对社会生产力提升和管理水平提升提供了相应支持。

数据挖掘过程的关键点

传统数据挖掘过程一般采用如下过程:

数据挖掘的过程

在大数据时代,数据挖掘的过程本质相同,但是有如下差异:

大数据时代数据挖掘的差异

1.从结构化数据到非结构化数据。传统的数据挖掘都是依据数据库里面的数据进行分析,在大数据时代,数据来源多种多样,对于这些非结构化数据的加工是大数据数据挖掘的重要特征。因为非结构化数据处理的成功与否决定了大数据数据源的质量好坏,而这并不是算法可以解决的。

2.从抽样数据到全量数据。传统数据挖掘受制于数据处理能力,只能使用少量的抽样数据进行分析。在大数据技术环境下,完全可以实现全量数据的分析,效率甚至可能高于抽样数据的分析。

3.从因果关系到相关性分析。大数据分析通过事件和多种因素进行相关性分析,通过数据挖掘和机器学习的算法找到其关联关系,并运用回归分析从而实现预测。

数据挖掘的任务按照目标可以分为4类:

1) 分类:通过分析训练集的数据,为每一个分类建立分类分析模型,用这个已知的规律对其他数据进行分类

2) 回归:建立因变量和自变量之间关系的模型

3) 聚类:将对象集合分成由类似的对象组成的多个类的过程

4) 关联规则:寻找给定数据集合中各个因子之间的关联关系

人们经常见到的“逻辑回归模型”、“神经网络模型”、“遗传算法”、“决策树”等等都是监督学习过程的挖掘算法。这类算法在机器学习和深度学习里面大量使用,是大数据公司必备的专业技能。极光大数据作为国内领先的移动大数据服务商,在这方面的实际案例颇多,例如极光大数据团队利用神经网络算法预测个人前往某一个特定区域的概率和时间,准确度可以达到80%以上;他们还利用神经网络算法和随机森林算法对个人喜欢的移动应用进行推荐下载和推荐产品;此外,极光大数据团队还自主开发了空间轨迹相似度STS(spatial trajectory similarity)算法进行同轨分析等。

数据挖掘技术随着大数据时代的到来已变幻出更强的功能特征,而在大数据服务商的精耕细作下,也必将为各行业带来进步的动力。


哦落伍0215745


  数据挖掘基于数据库理论,机器学习,人工智能,现代统计学的迅速发展的交叉学科,在很多领域中都有应用。涉及到很多的算法,源于机器学习的神经网络,决策树,也有基于统计学习理论的支持向量机,分类回归树,和关联分析的诸多算法。数据挖掘的定义是从海量数据中找到有意义的模式或知识。

  大数据是最近几年提出来,也是媒体忽悠的一个概念。有三个重要的特征:数据量大,结构复杂,数据更新速度很快。由于Web技术的发展,web用户产生的数据自动保存、传感器也在不断收集数据,以及移动互联网的发展,数据自动收集、存储的速度在加快,全世界的数据量在不断膨胀,数据的存储和计算超出了单个计算机(小型机和大型机)的能力,这给数据挖掘技术的实施提出了挑战(一般而言,数据挖掘的实施基于一台小型机或大型机,也可以进行并行计算)。Google提出了分布式存储文件系统,发展出后来的云存储和云计算的概念。

  大数据需要映射为小的单元进行计算,再对所有的结果进行整合,就是所谓的map-reduce算法框架。在单个计算机上进行的计算仍然需要采用一些数据挖掘技术,区别是原先的一些数据挖掘技术不一定能方便地嵌入到 map-reduce 框架中,有些算法需要调整。

  此外,大数据处理能力的提升也对统计学提出了新的挑战。统计学理论往往建立在样本上,而在大数据时代,可能得到的是总体,而不再是总体的不放回抽样。

  以山西开矿的煤老板为例:

  开矿的前提是有矿,包括煤矿的储藏量,储藏深度,煤的成色。

  之后是挖矿,要把这些埋在地下的矿挖出来,需要挖矿工,挖矿机,运输机。

  之后是加工,洗煤,炼丹,等等。

  最后才是转化为银子。

  数据行业十分类似:

  挖掘数据的前提是有数据,包括数据的储藏量,储藏深度,数据的成色。

  之后是数据挖掘,要把这些埋藏的数据挖掘出来。

  之后是数据分析输出,要把这些数据可视化输出,指导分析、商业实践。

  直到这一步,才创造了价值。

  所谓的大数据,大约就是说现在有座正在形成的巨型矿山,快去抢占成为煤老板吧,下一个盖茨兴许将在这里诞生。

  接下来好好说。如果说硬要说相似度的话,那么重合度的确是有很高。因为大数据干的事情其实就是数据挖掘做的事情。

  数据挖掘之前叫 KDD(Knowledge Discovery and Data Mining, 或者也可以是 Knowledge Discovery in Database),这样说就很好解释了。数据挖掘就是从海量的数据中发现隐含的知识和规律。那么说,这个东西是啥时候提出来的?上个世纪。大数据啥时候提出来的?也就这几年的事情吧。所以说,大数据很大程度上是数据挖掘的一个好听的名字。

  其实也不能一概否定「大数据」,至少通过媒体的热炒,让很多人知道了「数据」的重要性。只是很多人都不知道怎么做大数据,因为这个东西本来就是虚的嘛。如果想了解大数据,那么踏踏实实的做法是学习一下「数据挖掘」和「机器学习」相关的知识。


西线学院


不久前刚从贵阳采访大数据回来,接触贵阳大数据管理者多位,大数据企业十数家,着实被扫盲一通,也有新的认知。大数据是泛概念,包括数据的采集、收集、过滤、筛选、开掘、应用、使用、反馈,等等等等。数据先得大,越大越好,越大越有空间与余地,先是越多越大越好,如国库粮仓,多了大了,回旋的余地才大 。然后是分门别类的筛选、过滤,有粗选,有细分,留以待用。第三步是根本用户要求和需求,开掘应用,利用数据作用于现实的生产、生活,对其产生影响,促进生产、生活的改变与改善。最后是在作用于生产、生活后,使用后的情况的数据收集与反馈,实现数据运行中的闭合循环,以此为依据进一步完善数据库,并促进开掘应有的再升级……如此往复无限……乃大数据和数据开掘之本、之实。


陈言微事


个人理解,严格讲不是大数据和数据挖掘区别,是大数据分析和数据挖掘的区别,大数据分析是宏观分析,主要属于应用范畴,是目前针对各行各业进行的数据进行采集,归纳,整理分析的过程,而数据挖掘相对微观,主要属于技术范畴,在大数据的基础上进行深层次应用,分析,课题研究与计算,两者基础不同,分析的角度也不同。打个比方,在医疗领悟,对各种数据进行采集,并对某一病例进行快速查找属于大数据分析问题,而针对该病种大量本数据进行分析研究算法,得出该病种的数据技术特征,属于数据挖掘的范畴,大数据分析相对广义,可以包含数据挖掘,而数据挖掘则比较狭义,偏向于具体分析。


应言无语


大数据不是一个很明确的概念,比较泛,挖掘在一定程度上是分析的概念,不知道你想知道了解啥,没必要纠结于概念或者名词的差异,如果你想做点实用的现在的产品也很多,数据挖掘的模型软件或者大数据处理平台,只要能解决问题带来增值价值的就会一直存着



回到本质看还是要解决什么问题

这是上半年国际数据中心公司IDC关于大数据分析和认知智能的一些预测,都是一些比较流行的技术趋势正在逐渐推广应用

以后的事业会很极端一端是纯数字另一端是人的情感,这就是数字时代


爱己健康


数据挖掘是大数据的一部分。大数据通常包含以下过程:数据的搜集与清洗过滤,数据进行转换形成智能报表,利用机器学习算法从数据中得到有价值的模式和信息,数据挖掘就是属于最后一类。


分享到:


相關文章: