到底什么叫大数据?

苏中山

「大数据」(big data)和「资料科学家」(data scientist)是近年来商业界的热门关键字。不过,你感受到大数据的重要性,却未必真正了解大数据和你我的工作、和企业的关联性是什么?以下5 张图,让你快速了解大数据的商业应用。

Q1. 什么是大数据?

A : 狭义的定义是指,符合「3V」条件的数据资料,分别是:

  • Volume(大量):以过去的技术无法管理的资料量,资料量的单位可从TB(terabyte,一兆位元组)到PB(petabyte,千兆位元组)。
  • Variety(多样性):企业的销售、库存资料;网站的使用者动态、客服中心的通话纪录;社交媒体上的文字影像等企业资料库难以储存的「非结构化资料」。
  • Velocity(速度):资料每分每秒都在更新,技术也能做到即时储存、处理。广义的定义,《大数据的获利模式》作者城田真琴认为,还要包括具备储存、处理与分析这些资料的技术,和能够从这些资料中取出有用资讯或洞见的人才和组织。

Q2. 大数据分析和商业智慧(BI,business intelligence)有什么不同?

A : 美国顾问机构顾能(Gartner)分析师霍华‧瑞斯纳(Howard Dresner)在1980年代提出「商业智慧」概念,指有系统地储存企业内、外部资料,并加以分析,辅助商务决策。瑞斯纳认为,经理人应该亲自经手资料,以达到迅速决策与提高生产力的目标。

商业智慧可分析过去发生什么事,以及为什么会发生这件事,像是利用统计学回归分析,从A产品过去一年的销量结构,找出销售下滑的原因。大数据则可根据目前发生了什么事,预测未来将发生什么事。例如,电商可即时监控销售情况,预测顾客回购周期。

Q3. 一般企业有哪些数据可用?

A :《大数据的获利模式》作者城田真琴将企业能取得的资料分为4 种:

  1. 公司本身的事业活动资料:属于公司的核心资料,例如便利商店的POS 系统资料。
  2. 公司背景资料:比方说员工的通讯录或财务报表,但是对服务顾客没有帮助。
  3. 其他公司或顾客的资料:像是顾客在社交网站上的活动纪录,就是企业即使花钱也想拿到的资料,因为对自己很有用。
  4. 公开资料:通常可以免费取得,企业应该积极运用例如政府的公开资讯,例如政府的公开资讯。

Q4. 企业如何运用数据资料?

A : 阿里巴巴副总裁车品觉提出了数据的5 大价值:

  1. 识别与串联:能够辨识出用户的资讯(手机、生日、e-mail等)
  2. 描述:举凡用户搜寻的关键字、企业的营运数字、网站活动的相关数据,企业都可以用来做为营运的仪表板。
  3. 时间:从用户的行动时间轴推测他的行为,例如刚搜寻过旅馆的使用者,在拜访其他网站时,也能即时看到旅馆广告。
  4. 预测:可以帮助公司预测销售,影响公司经营策略。
  5. 产出数据:将现有数据组合产生新的数据,像是将网路卖家的各项表现(物流、商品、客服等),综合在一起形成店铺评分机制。

Q5. 运用大数据的人,就可以称为资料科学家吗?

A : 基于前述资料的特性,大数据的储存、处理和分析绝非易事,通常需要团队支援,才能发挥出资料的最大效果。

大致来说,资料分析领域包含5 个关键职务:资料工程师与软体工程师负责资料的清理、储存和处理;资料分析师将资料视觉化,供资料科学家分析;资料科学家依据想要解决的商业命题建构模型,供决策参考;领域专家则是熟悉领域专业知识,提供专业见解供资料科学家分析参考,扮演发展决策的桥梁。


非马财经

关于大数据,只需要了解这几点。

第一:什么是大数据

简而言之,大数据是指大数据集,这些数据集经过计算分析可以用于揭示某个方面相关的模式和趋势。数据量不在多,只要足以得出可靠的结论即可。


第二:如何获取大数据

大数据无处不在,随着时间的推移,一个简单的Google搜索就能够找到几乎所有的数据存储库。里面不知道有多少数据可用于访问和分析。我现在这里提供一个可供学习的数据集列表:(https://www.kdnuggets.com/datasets/index.html)


第三:用这些数据做什么

数据采集、数据存储、数据清洗、数据分析、数据可视化


1.数据采集

在发生任何事情之前,需要一些数据。这可以通过多种方式获得,通常通过对公司Web服务的API调用。尤其是我们在工作中遇到的数据很多都是来自系统内的数据,来自数据库的数据来自日志的数据。

数据采集常用的手段有:SQL/Python,其中SQL是数据分析的必备技能,Python是加分项。


2.数据存储

大数据的主要难点在于如何管理数据的存储。这完全取决于负责建立数据存储的预算和个人具备的专业知识,因为大多数需要一些编程知识来实施,一个良好的数据库能让我们直接地存储和查询数据。


3.数据清理

采集来的数据一般是不规整的,字段缺失或者有错误是常有的事情,如果我们不对这些数据进行清洗,分析出的结果就会出现各种异常。在数据清洗这一块就需要用到一些简单的统计学基础。


4.数据挖掘

数据挖掘是发现数据库内的见解的过程。这样做是为了能用掌握的数据提供预测和做出一些正确的决定,这部分往往涉及一些算法,也是最困难的部分。


5.数据分析

一旦收集完所有数据,就需要分析以寻找数据的模式和趋势,发现一些不同寻常的地方,比如异常点或增长点、下降点。


6.数据可视化

也许最重要的是数据的可视化。这是先完成所有工作并输出理想情况下任何人都能理解的可视化的部分。最常使用某种编程语言(如Plot.ly、d3.js)或软件(Tableau)来完成。


第四:就业前景

就根据教育部近日公布的2017年度高校本科专业备案和审批结果显示,新增2311个专业中,“数据科学与大数据技术”、“机器人工程”等专业热度最高。大数据和人工智能一定是未来有美好前景的专业。从谷歌搜索热度看,自2010年左右热度只增不减。



欢迎各位或者各位的孩子们加入数据分析师的队伍!


路人甲M

大数据是一个描述数据从产生、传输、存储、分析到展示的一些列技术的统称。所以大数据不仅仅体现在量上,也体现在应用分析上。

在描述大数据的时候我们通常从四个维度来表述大数据,数据量大、非结构化数据、价值密度低、速度快,这是大数据在数据本身上具备的特点,除了这几个常规的描述外,现在大数据正在不断拓展研究边界。

随着大数据研究边界的拓展,需要参与到大数据领域的角色也在逐渐增多,大数据与传统技术之间的边界也在逐渐模糊。比如在大数据模式下的物联网不仅仅完成物物相连的基本功能,也在完成数据采集的功能,物联网产生的大量数据正是大数据体系下大量非结构化数据的来源,而针对这些数据的发掘、分析正是大数据研究的重要内容。

同时大数据的传输和存储需要一个容量巨大的数据中心,而这个数据中心往往需要提供分布式存储和分布式计算的两大核心任务,而这也正是云计算平台的重要任务。所以云计算为大数据提供了支撑,可以说大数据是云计算发展到一定阶段的必然产物。

所以大数据与物联网和云计算关系密切,互不可分、互相依赖。同时大数据一个重要的研究内容是让数据“说话”,也就是我们所说的数据之美。要发掘数据的价值就需要算法的支持,通过算法让数据呈现出一定的规律,而这种规律的背后也许是一个重大的发现。

大数据的发展也促进了人工智能的发展,机器学习作为人工智能领域的重要组成部分,在进行算法训练时需要大量的数据,而这正是大数据能提供的,所以伴随着大数据的发展,人工智能领域也迎来了前所未有的契机。

所以,大数据不仅仅是一个概念,更是一条产业链,这条产业链涵盖了数据的产生到数据的应用,未来大数据这条产业链将创造出大量的就业岗位,大量的科技人才将为大数据产业服务,数据也将在未来体现出更多的实际价值。

如果大家对大数据、云计算、物联网有问题或想法,可以私信我,一起交流。


IT人刘俊明

简单来说,大数据就是大量的信息,尤其指存在于互联网和数字终端中的数字信息。大数据到底有多大?统计数据表明,在一天之中,互联网产生的全部内容可以刻满1.68 亿张DVD。IBM 公司的研究称,在整个人类文明所获得的全部数据中,有90% 是过去2 年内产生的。而到了2020 年,全世界所产生的数据规模将达到今天的44 倍。


草原独狼

“大数据的运用,汽车私人定制服务已经不远。”

题主的问题比较宽泛,这里仅从笔者比较熟悉的汽车行业举一个例子,分享一下车联网大数据在汽车产业运用的一个例子,抛砖引玉。

背景

2017年我国汽车保有量已经达到2.05亿辆,而且预计在未来的销量还会增加,到2020年达到3000万辆。

汽车的最终目的是为人们提供移动出行的解决方案,对于未来汽车的发展趋势,业界基本上有一个共识,未来的汽车会朝着“电动化,网联化,智能化,共享化”四个方向发展。

以用户为中心的生态链

基于汽车网联化的发展,形成了以用户为中心的生态链,如下图:

围绕在车主周围,有不同层级的参与者。传统的主机厂,汽车制造商,硬件供应商,4S店,只是其中很一小部分。还有各种服务商,提供商,开发商,保险公司,传媒,甚至教育机构,也扮演着重要的角色。

车联网能够将这些参与者全部连接起来,靠什么?

大数据

汽车产业数据,驾驶行为数据,汽车感知数据,外部环境数据,还有最重要的人的社会数据,都储存在“庞大的汽车保有量”这个数据库中。

围绕着车联网,以上的数据不断地更新,不断地累积,形成了庞大的数据库,可被收集,并进行分析和处理。

运用举例-私人定制服务

通过数据处理,得到基于用户里程的分布,轨迹,行驶速度,超速违规事件一系列统计:

由此,构建出一个精准的用户画像,做什么,爱好是什么,习惯什么等等。

那么,针对于该用户,各种服务商就可以提供私人的“定制服务”,比如安全指导,保费个性化,出行效率提升等等。

据估计,车联网的市场规模从目前年250亿,到2020年能够达到4000亿元,又是一个巨大的蛋糕。

版权声明:本文为“汽车人参考”原创,如需转载,请务必提前联系。转载时请注明“本文出处于+媒体平台名称+汽车人参考”以及原文链接,侵权必究。

汽车圈儿的清流


汽车人参考

数字云与大数据 数字世界传达出一种流动性和游牧式的轻。但与此同时,它又与一种肥胖形式密不可分,这种肥胖具体表现为一大堆被发掘出来的信息。随着存储能力的提升和互联网使用的普及,来自网络用户的海量数据被捕捉或擦肩而过。谷歌公司的执行总裁埃里克·施密特认为,现在每两天创建的数据量相当于从人类开端到2003年所产生的全部数据量。据估测,数据的制造量每两年就会翻一番。2013年,全世界每天产生大约1800亿封邮件。说到所谓的大数据现象,人们常常提及“信息海啸”以及“数据洪流”。无形之物竟创造出一种新形式的副产物——“信息过载”。 种种迹象表明它还会进一步加剧,因为有越来越多的产品(电视、冰箱、商店、手机游戏等)被数字化、连入互联网,由此产生了更多数据源。据统计,现在平均每个家庭拥有6件联网设备。到2020年,平均每个用户使用的联网设备将达到20件。爱立信的一项调查显示,届时,全世界可能会有500亿件设备被连入网络。轻革命最终生成了一大批不断增长的数据,它们是如此浩瀚,急需新的存储、管理和开发方式。 据此发展出一种被称为大数据的新技术,它负责分析大规模的结构化和非结构化数据库,以达到普遍预测的目的。以微小数据的大量积累为基础,对数据进行处理,就有可能实现对病症的预测,做出个性化建议,评估风险,推荐最佳交通路线。轻革命使“非常小”遇见“无限大”,从此,相关性的力量被凸显出来,解释不再是必需。轻革命带来的不再是对轻之幻梦的体验,而是预测的能力和“算法管理”。 随着各种技术和数字产业的发展,我们见证着两个矛盾趋势的兴起。互联网世界伴随着去中心化过程、去中介化过程、与轻革命方向一致的交互过程。大众媒体单方面、“定向”的交流已经失势,取而代之的是一些针对个人需求的个性化操作:一对多的金字塔装置被多对多和自媒体这类灵活的形式所取代。 但与此同时,网络也见证着权力与财富通过大型平台的再一次集中:流动的信息技术世界催生出多家全球巨头公司,导致了目前美国一家独大的局面,其影响力已经超出了合理的范围。一方面,个体的权力得到了增强,通过掌握海量的数据,个人可以交流、表达自我,拥有更好的购物体验和更多的知情权;另一方面,一些互联网跨国公司出现了,它们利用数据使自己成为极其强大的存在,这些数据包括消费者留下的数亿条微小的信息记录,这些当他们购物、在社交网站上聊天、发送照片、访问网站时,信息便或多或少地在他们不知情的情况下被收集。这些数量庞大的琐碎信息先是零散的,然后通过路由 系统传送到数据中心,由此形成了那些新的互联网宏观机构。在充斥着个人数据的大数据世界里,正是极小之物为各大网络巨头提供着能量。 面对大数据和大规模数据处理所赋予的权力,一些人以1984年的数字技术危机为戒,发表了骇人听闻的言论,认为人类的自由和尊严正受到威胁,被一种新形式的沉重的统治所笼罩。大数据技术不断进驻新的领域,此时,其使用过程所牵涉的诸多伦理问题便凸显出来。相关性在算法系统的支持下取得了时代的胜利,这不正是《少数派报告》中的场景吗?罪犯在犯下他们计划中的罪行之前就落网了。更广泛地说,什么法律条文适用于那些网络上公开的个人数据?如何保护互联网用户的隐私?如何在不妨碍信息权的同时规范和确保“数字遗忘权”的效力?谁来决定?标准是什么?这里不是回答这些问题的场合。我们只是要强调,如果在大数据和算法系统盛行的今天,人们不去理解那些现象的原因,而仅仅更新相关性、提出局部有效的预测,那么这个领域无疑会源源不断地引起人们对个人保护的需求,并在落实过程中引发各种问题。时至今日,轻的世界已经与诗意、轻柔的飞翔没有多大关系了,构成这个世界的,是对数字信息的擦除权和撤回权的投诉、争议与复杂仲裁[1]。 [1] 根据欧盟法庭的一项决议,谷歌允许互联网用户从2014年起申请清除那些与个人相关的“不重要的、作废的、不恰当的”链接。



爱我没错D

近几年随着工业的不断发展,已然来到了智能工业的4.0。此时,智能制造与大数据等新概念充斥着我们的眼球。这里Woff简要的介绍一下大数据。



本质上理解大数据,无非就是体量很大的数据集。但关键在于在这背后的:人类数据处理能力的提升、数据量的累积,分析方法的发展、思维的转变等等,这些才是‘大数据’这个词的真正含义。

大数据的类型大致可分为三类:

传统企业数据(Traditional enterprise data):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等。

机器和传感器数据(Machine-generated /sensor data):包括呼叫记录(Call Detail Records),智能仪表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等。

社交数据(Social data):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台。

大数据的应用十分广泛,比如舆情分析,就像海啸预警,通过对海量信息的分析、比对,找出可能产生海啸灾害的区域……当然,最大的用处还是“预测”,比如通过分析多年的洋流运动,能够分析出你今天在好望角错过的鱼群下个月会出现在哪里。



说到最后,你可能觉得大数据离你我很远,没有大数据我们也一样生活。其实不然,如果你认为大数据来预测海啸,预测鱼群对你没有吸引力,那如果预测的是未来股票的涨跌呢?如果预测的是未来行业的风口呢?(~ ̄▽ ̄)→))* ̄▽ ̄*)o有没有一点点动心?

我是Woff,欢迎大家关注我一同讨论新新事物。我们一起学习,共同进步!


Woff

大数据就好理解了,按照字面含义解释就好了——大~~数据。


大数据的特征

  • 数据体量巨大(Volume)

  • 数据类型繁多(Variety)

  • 价值密度低(Value)

  • 处理速度快(Velocity)


举个例子

大数据能干啥,举个小点儿的例子:

你是一个电话销售,我也是一个电话销售,搜集咱俩平时所有的销售行为和客户画像,发现你向40-50岁的“大姐姐”们推销的时候,成功率奇高;而我向20-30岁的小姐姐们推销的时候,成功率奇高,那么以后你可以专门负责大姐姐,我负责小姐姐。


举个稍微大点儿的例子:

保险公司可以分析每一笔理赔信息,再未来理赔的时候,系统可以自动的提示那一通理赔骗保的可能性最大。


大数据的价值

你有了更多数据,你就能看到之前你看不到的信息。

大数理论:在试验条件不变的前提下,重复多次试验,看似随机事件往往都会呈现出可统计特性。

而随着计算机的处理能力的增强,如果你能获得更多的数据,那么你就能找到事件产生的规律,挖掘到更多的数据价值。


写在最后:数据的本身是不产生价值的,如何分析大数据找到事件的规律,再对去指导优化业务才是关键。


会点代码的大叔

  大数据作为一个名词其实是晚于Hadoop的,更是晚于MapReduce。曾经有那么一段时间,流行的词语是MapReduce而不是大数据。当然再后来,大数据这个词就流行开了。但是大数据到底是什么,到今天应该还是稀里糊涂的一笔账。

  大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。

  我不知道大家是不是读懂了,反正我做大数据这么多年,这段定义我是读不懂。

  这个定义最大的特点,和很多红皮书白皮书黑皮书之类的差不多,就是装逼。说白了,不说人话。反正我是没听明白大数据和小数据有什么本质的区别。无非是数据和处理数据的工具以及从数据里面提取有用信息变成钱的过程。曾经我们在做这些事情,现在我们在做这些事情,将来我们也会继续做这些事情。

  行为学家Dan Ariely关于大数据的名言,今天我们继续共享一下这段名言:

  Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it.

  简单翻译一下:

  大数据就像青少年性行为:大家都谈论,没有人真正知道怎么做,每个人都认为其他人都在做,所以每个人都声称自己在做。

  以前几年国内大数据概念炒上天的情况来看,其实真的谁也不知道大数据是什么,谁也不清楚大数据怎么玩,但是各行各业忽如一夜春风来,冒出无数个大数据公司大数据专家。

  现在我们可以看到各行各业都在谈论大数据。从政府到企业,从互联网行业到传统行业,随便写个App背后没有大数据都不能叫好App。现在大数据都上升到国家高度了。比如说政府办公要上大数据,一个三线城市,放两三台机器搞定的,这数据真的非常的大。

  如果我们撇开大数据这个概念不谈,自从有了数据以来,人类一直做的事情是什么?这个其实也是今天大数据的背景下大家都在做的事情,概括起来讲:分析数据,产生有价值的信息。

  这个事情20年前在做10年前也在做,今天还是在做,其实没什么变化。 那么什么东西发生了变化呢?最大的一个是工具的能力发生了变化。 现在我们可以几千几万台机器一起协同做计算了。其次是性价比的变化。以前买Oracle的数据库IBM大型机Teradata的解决方案,贼贵。现在开源软件一搭,弄些PC机就好。糙一点无所谓,所谓便宜才能普及。

  然而本质来讲,大家做的事情并无改变。所以我们不需要去纠结于大数据到底是什么,而是要看清楚具体业务问题是什么,有什么合适的工具去解决。这些工具可能是新的也可能是旧的。我想大数据的所谓发展无非就是工具的进步使得大家能够更有能力去在限定的时间内处理更多的数据,获得更有效的信息。


西线学院

“大数据”(Big Data)不是个技术名词,而是个商业用语。

以前,我们叫“海量数据”,就是很多很多数据的意思。

与之相关的数据处理方法,称之为“数据挖掘”(Data Mining)。

而“大数据”这个商业词汇,既包含了很多很多数据的意思,又包含了多种数据处理方法的概念,换言之,就是“海量数据以及数据分析处理算法”。

不得不说,“大数据”这个词汇,广大人民群众接受度非常高,比什么数据挖掘要通俗易懂多了,是一个非常成功的商业营销案例。


与之类似的操作,还有“云计算”、“人工智能”。

你跟非从业人员讲半天虚拟化、IaaS、深度学习、NLP......没人懂你在讲啥。

但是你一说云计算、人工智能.....人家说:哦,这个我知道,现在很热门啊。


分享到:


相關文章: