「CXO进化营」第1期分享:深入剖析大数据的内涵与外延

当今时代,大数据对于企业精细运营起到的价值非常巨大。企业如何运用大数据提升业绩,降低运营成本,提高效率,提升客户体验是首要关心的问题。

面对广阔的大数据前景,越来越多的企业已经认识到了大数据所蕴含的重要战略意义,并纷纷进行战略部署,以迎接大数据技术革命正在带来的新的机遇和挑战。2018年,企业该如何更好地抓住大数据大机遇,有所斩获呢?

为此,解放号社区携中软宅客学院高级讲师徐达老师于8月30日20:00为大家亲授了【CXO进化营】第1场分享课《深入剖析大数据的内涵与外延》,分享会徐老师主要从大数据现状、核心技术、案例剖析、大数据趋势这四个角度来揭开大数据的神秘面纱,让我们受益良多。

分享嘉宾

「CXO进化营」第1期分享:深入剖析大数据的内涵与外延

徐 达 | 中软宅客学院高级讲师、 10年大数据、云计算专家

☑ 【个人介绍】

北京航空航天大学云计算专业硕士。10年以上开发经验,精通Java语言,熟悉大数据开发,熟悉云计算技术。

☑ 【项目经验】

大数据移动互联网广告项目(Hadoop/Hive/Sqoop等)、中国石油集团管理学院数据挖掘系统、国家金农工程、OA公文自动化办公系统、北京中债债权交易网站和网上拍卖系统(Struts/Tapestry/Spring/Maven) 、云平台搭建(docker/kubernate等)。

马云说:互联网还没搞清楚的时候,移动互联就来了,移动互联还没搞清楚的时候,大数据就来了。目前,这些概念业界还没有达成共识,不同背景的专家给出的解释往往大相径庭,导致了很多概念满天飞,让各大企业无所适从。

「CXO进化营」第1期分享:深入剖析大数据的内涵与外延

今天,我们花一个小时时间把大数据这个话题探讨清楚,通过这门课彻底读懂大数据。

首先,我抛出几个问题,大家带着问题一边听课程的讲解。

1. 大数据有用吗?

2. 大数据有什么作用?

3. 大数据从哪来又去哪?

在解释大数据内容之前,先给大家讲几个小故事。

(一)

2008年,谷歌推出了一款名为“谷歌流感趋势”(GoogleFlu Trends)的产品。工程师们假定:一旦人们患上流感,就可能会在搜索引擎上输入特定的检索词条以获得与流感相关的信息。通过汇总和分析这些检索词条,谷歌就能预测流感将在何时何地爆发。2009年,这款产品在甲型H1N1流感爆发几周前成功预测了其在全美范围的传播,反响巨大!一时间,有关大数据开启公共卫生变革的观点接踵而来。

(二)

2015年1月29日,马来西亚民航局宣布,马航MH370航班失事,并推定机上所有239名乘客和机组人员已遇难。这个事件可谓震惊了全世界,相信大家对这个新闻并不陌生。而这个数据是谁第一时间推测出来的呢?是英国的发动机公司通过大数据推测出来的结果。

通过以上2个案例,我想大家对于大数据是否有用、有何作用已经有了清晰的答案。

01 什么是大数据?

既然在高速发展的信息时代,大数据对于企业来说可谓举足轻重,那什么是大数据呢?

大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

业界(IBM 最早定义)将大数据的特征归纳为5个“V”(量Volume,多样Variety,价值Value,速度Velocity,真实Veracity)。或者说特点有5个层面:

第一,数据体量巨大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);

第二,数据类型繁多。比如,网络日志、视频、图片、地理位置信息等等;

第三,价值密度低,商业价值高;

第四,处理速度快;

第五,真实性。

但是随着大数据技术和应用的发展,人们对这四个V有了新的认识。在《大数据时代》一书中,迈尔-舍恩伯格给出了著名的关于大数据时代的三大特征:

1) 不是随机样本,而是全体数据;

2) 不是精准性,而是混杂性;

3) 不是因果关系,而是相关关系。

02 大数据的现状

根据Allied Market Research调查报告显示,2013年至2020年,全球大数据市场份额将以58.2%的年增长率进行增长。

2015年,我国大数据市场规模为1692亿元,占全球大数据市场20.30%,预计2020年全球大数据市场规模将超过10270亿美元;届时我国大数据市场规模将接近13625亿元。

「CXO进化营」第1期分享:深入剖析大数据的内涵与外延

大数据为什么这么火呢?为什么现在很多人张口闭口就说大数据?接下来我们就从大数据的技术范畴来深入分析。

03 大数据技术体系

现如今,大数据技术体系太庞杂了,基础技术覆盖数据分析挖掘(机器学习、数据分析、BI数据仓库)、数据可视化、Linux与编程语言(Java、Python、Scala)、大数据框架(目kafka、Hadoop生态、Spark生态、ElasticSrarch生态、Storm)等各种技术范畴和不同的层面。另外大数据应用领域广泛,各领域采用技术的差异性还是比较大的。

「CXO进化营」第1期分享:深入剖析大数据的内涵与外延

总之,大数据涉及范围太大,其终极目标是利用上述一系列核心技术实现海量数据条件下的人类深度洞察和决策智能化。

在这里,我重点讲解下大数据框架。

1.Hadoop生态

经过长时间的发展,Hadoop(目前成为主要的生态之一)已经形成了自己的生态体系。

有些框架是诸如一些大公司如Yahoo, Facebook团队所开发的,我们来看一下它的生态图:

「CXO进化营」第1期分享:深入剖析大数据的内涵与外延

目前,互联网应用典型架构如下所示:

「CXO进化营」第1期分享:深入剖析大数据的内涵与外延

阿里Hadoop应用

中国超大规模的Hadoop集群是淘宝。

目前,淘宝单个Hadoop集群数量超3000个节点,同级别集群数量有2~3个,它还有一个很美丽的名字:“云梯”,支付宝的集群规模700台节点,使用HBase对用户的消费记录可以实现毫秒级查询。淘宝的Hadoop应用框架总览如下图所示:

「CXO进化营」第1期分享:深入剖析大数据的内涵与外延

2. Spark生态

随着大数据技术的发展,实时流计算、机器学习、图计算等领域成为较热的研究方向,而Spark作为大数据处理的“利器”有着较为成熟的生态圈,能够一站式解决类似场景的问题。

「CXO进化营」第1期分享:深入剖析大数据的内涵与外延

3. ElasticSearch生态

Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,可以说Lucene是当今最先进,最高效的全功能开源搜索引擎框架。它可以帮助你用前所未有的速度去处理大规模数据。它可以用于全文搜索,结构化搜索以及分析。

「CXO进化营」第1期分享:深入剖析大数据的内涵与外延

4.Storm框架

目前对于流式数据实时处理方案主要有2种:Storm、Spark Streaming。

Storm框架:根据进来的每一条数据进行实时处理,处理数据的速度实现毫秒级别,目前阿里巴巴将Storm进行优化封装推出了JStorm。

「CXO进化营」第1期分享:深入剖析大数据的内涵与外延

Spark Streaming:根据进来的数据进行批次处理,并按时间间隔进行划分,时间间隔比较短,运行延迟性在毫秒到秒级别。其中Spark 2.2.x的延迟性降低到100ms以内。

「CXO进化营」第1期分享:深入剖析大数据的内涵与外延

04 大数据经典应用

2018年,大数据热门应用领域主要分为:健康医疗、金融、物联网工业制造、城镇化/智慧城市、互联网。

1)健康医疗应用

如今,大数据应用最多的领域应该要属医疗了,应用案例可谓数不胜数。

「CXO进化营」第1期分享:深入剖析大数据的内涵与外延

在以前,想必大家都知道挂号特别艰难,导致黄牛很多,医疗成本增加,自从通过大数据实现在线挂号,医疗成本得到了大幅度降低,便利了我们的生活。

健康医疗大数据是信息化企业未来的发展方向,目前如东软、东华、方正以及还要一些医院本身也在研究医疗大数据。随着数据连接、人工智能、机器人、3D打印等新技术的创新与应用,将为健康医疗大数据提供更全面有效的应用基础支持,在全球经济、技术一体化的今天,中国医疗健康行业已经开启了大数据的起航之旅,未来大数据将在医疗健康领域市场规模占有越来越高的市场份额。

2)金融应用

「CXO进化营」第1期分享:深入剖析大数据的内涵与外延

在金融领域,目前主要使用进行如下应用:

1)企业风控领域;

2)智能投顾;

3)智能客服;

4)实时营销推荐与风控。

05 大数据发展趋势

纵观大数据的发展趋势,我认为主要为以下4个方面:

1.算法当道

ü 机器学习技术更加成熟,成为大数据智能分析核心技术;

ü 人工智能+大数据,成为大数据分析领域热点。

2.数据科学兴起

ü 数据科学家逐渐分工明细、成熟;

ü 重视数据分析应用建设及数据治理;

ü 多数据源融合分析成为趋势;

ü New BI系统逐渐普及。

3.数据智能化成为趋势

ü 文本、图像、结构化数据的语义化和知识化成为趋势;

ü 基于知识图谱的大数据应用成为热门;

ü 大数据预测与决策辅助成为应用方向。

4. 数据安全逐渐成为企业关心重点

在企业中计算机被普遍运用,数据安全也逐渐成为一个重点课题。数据是任何企业的命脉,例如电子邮件、财务报表和员工档案等都是公司的重点数据,没有它们就无法顺利运作。

因此,企业如何保护“信息资产”成为数据安全的重中之重。

THE END

墙裂推荐【CXO进化营】中国软件10强企业专家在线分享的《从技术到管理,如何打造IT服务企业核心竞争力?》,5位知名专家,7节能力提升课,价值299元的系列课程,限时免费,精彩不容错过。

「CXO进化营」第1期分享:深入剖析大数据的内涵与外延


分享到:


相關文章: