360商业产品首席架构师、《计算广告》作者刘鹏:九评大数据

【CSDN现场报道】2015年11月19-21日,由CSDN重磅打造的“2015 中国软件开发者大会”(以下简称SDCC 2015)在北京朗丽兹西山花园酒店隆重召开。今年是第七届,大会为期三天,除了阵容强大的全体大会外,主办方还精心筹备了九大技术专场论坛,包括:架构实践论坛、前端开发论坛、数据库实战论坛、研发管理论坛、安全技术论坛、算法实战论坛、编程语言论坛、产品与设计论坛、微信开发论坛。此外,还有五场特色活动及展览展示。

360商业产品首席架构师、《计算广告》作者刘鹏发表了《九评大数据》的演讲。他风趣地抛出了这样一个话题“为什么Hadoop的Logo是一头象”,他的理解是,Hadoop实际上就是盲人摸象,对于大数据每人都有自己的理解。刘鹏随后对数据的来源特点、数据的使用方法、数据的加工技术等进行了详细分享,最后他也对行业一些案例进行了展望。

以下是刘鹏发表的主题演讲:

360商业产品首席架构师、《计算广告》作者刘鹏:九评大数据

360商业产品首席架构师、《计算广告》作者 刘鹏

大家下午好我叫刘鹏,最近可能外面忽悠得多了一点,大家可能看到我讲的不少,但是看到我穿皮鞋讲的机会很少见,一般我都不穿皮鞋,今天我给大家分享什么呢?CSDN这个组织者希望我们来做一个报告,我想不出来讲什么合适,最后决定就讲大数据,大家不知道讨论什么的时候就讨论大数据。我曾经过一个玩笑,咱们在互联网+时代3个终极的哲学问题,我们从哪儿来到哪儿去?我们做的事情是不是大数据?我今天讲的内容,不算什么干货,都是我自己在接到这个题目之后,自己做的一番深入的思考:大数据在工业界里边,什么样数据本身,怎么样的应用的问题?怎么样的解决的方案组合在一起才会是大数据的问题?这些思考非常的肤浅,请大家多提意见。

360商业产品首席架构师、《计算广告》作者刘鹏:九评大数据

为什么Hadoop的Logo是一头象

这个图大家肯定都认识,这个logo是什么呢?是hadoop的logo,这个logo特别的好,因为hadoop 是咱们做大数据处理的,可以说是第一代的比较完善的基础平台,某一种程度上代表了大数据的现象。我们知道中国有一个词叫做盲人摸象,我们每个人看待大数据这个词的时候,在不同的社区里、不同的领域里有不同的观点,比如说4V的理念、关于价值等,图片中的4个就是大数据的根本特点,但是说实话,看完这4个V之后和没有看一样,还是不知道大数据是什么,互联网的人都是在讨论大数据是什么?讨论大数据的个性化应用,比如说我们最常见的应用有计算广告,个性化推荐、互联网金融的个人征信,我们利用数据把对人的服务变成个性化的。

我们从互联网很多得到的视角,也有很多着重于底层架构的朋友在讨论大数据的时候,更多的是讨论开源的框架而且把开源的框架和厂商做比较。还有的人谈到大数据的时候谈的是商业智能的概念,这一点其实在我来看就不太认同,我认为商业智能主要是上一个时代的数据处理的任务,和我们现在所讲的有蛮大的差别。我为什么这样说,我会给到自己的观点。用这个logo告诉大家是:我觉得大家对大数据的理解就是盲人摸象的故事一样,每个人都有不同的理解,我想了很长的时间也没有办法对大数据给出一个整体的定义。所以我整理了一下工业界在碰到大数据这个词的时候,我们有哪些方面的不一样,也就是下面9点的观察和思考。

我把9点分为3个部分,第一关于大数据的数据来源,什么样的数据来源我们认为是注重关注的数据源,第二大数据基本的应用问题,什么问题是传统的数据分析问题,第三就是关于大数据的加工和使用技术。

360商业产品首席架构师、《计算广告》作者刘鹏:九评大数据

数据的来源特点

我们先来看一下大数据的数据源问题。关于大数据的来源特点,首先第一个我的观点,我每一点都是这样,左右两块,左边是传统状态,右边是我们将来的状态和现在正在走的方向。从数据来源上来讲,最重要的是我们要区分什么是交易数据什么是行为数据,这个词是我的定义,并没有讨论和规范。交易数据,我指的是你的业务流程之中要记录的数据,举一个例子,比如说电信运营商在它的业务运转过程之中必须要记录你所有的通话的时长、通话的费用。银行,所有的存取款和理财的行为是必须要进行记录的,这就是银行的交易数据。对医疗来说更有意思,医疗的交易数据是什么呢?你们去医院看病的病例,这个病例同样是一个医疗的业务开展所需要的必要的条件,这样的数据是不能不记的,所以我把它称之为交易数据。

今天上午有人问到工业4.0的问题,工业界也有这个问题,工业界传统所记录的数据当中,所谓的交易数据是很少的,而是生产货物以后的数据,在生产过程之中的所有的数据基本上都没有被系统的记录下来。这样的交易数据有什么特点呢?有两个重要的特点,首先一致性的要求很高,银行、电信的交易数据每一条都不错,而且处理的时事性要求很高。另外一个特点,就是它的数据量并没有到达海量的程度,银行,你们可以算一下,比如说工行,一天有多少笔交易,从笔数上来,比互联网的任何一个网站都要少很多。但我说这个话并不意味着他的交易数据的处理是简单的,因为它的一致性的要求很高,很复杂。于此对应的是行为数据,行为数据是是业务流程之中可以记也可以不记的数据。

我们为什么会记行为数据呢?所有的网站服务都是以数字化的形式提供的,数字化形式的背后,就把所有的日志给记下来了。所以在开始,并不是说互联网企业一定要记录行为数据,并拿来加工和变现。我们是无心插柳,数据已经记下来了,那么怎么样变现呢?就是用流量来变现。其他的行业也有的行为数据是可以记录的,比如说电信行业,你所有的通话记录、短信,这是它的行为数据。我们先不说使用的边界和困难有多少,这样的数据里一定蕴含着巨大的价值。

还有电信在开始认真考虑使用的就是每个网民的上网的记录,这些事情对电信传统的业务来说是可记录可不记录的,银行的行为数据,一个APP上有浏览的行为,你在线下拿了号,但是并没有等到自己的服务,就走了,这就是行为数据。医疗的行为数据,当你的身体没有发生状况的时候,日常的健康的记录这就是正常的。行为数据的数据规模巨大,一个广告公司每天处理的数量是达到100亿次,这个量已经超过了绝大多数的大规模企业的交易数据的量。但是他一个好处就是它的一致性的要求很低,网站的日志我们后面还会这个问题,在加工的过程中我们并没有向银行一样一致性的高要求。还有一点差别,行为数据里的价值的密度是很低的,1个G的内容会挖掘出大量的信息来,一个G的行为数据能够挖出来的数据就很少,所以就要求我们必须要采取低成本的方案。

刚才说到数据源的第一个特点就是交易数据和行为数据的差别。第二个差别,就是由结构化数据转向非结构化数据,结构化数据是用字段表达的比较结构的数据,比如说用户的注册信息,交易的行为,这些东西都可以用数据库来表达。非结构化数据是什么呢?就是我们没有办法用统一的结构来表示的数据,比如说在互联网上大量存在的文本、图像、和用户的行为数据,这些数据不仅从结构上来说差别很大,在内容的分析上不是数据库的更改和查找就可以完成的,还涉及到大量的人工智能的工作,所以把结构化数据向非结构化的数据来进行拓展,这也是我们在大数据时代一个重要的方向。比如说现在的金融行业做这一种高频交易的支撑的时候,大家处理的数据除了在交易所本身发生了大量的交易的行为之外,已经开始涉及社会化网络里面的内容,网页上的内容,搜索上的内容,用这些信号来共同的支撑你对股票买卖的决策的支持。

第三点,也是蛮重要的就是讲我们在大数据时代数据来源的范围。过去我们对数据的加工,我认为是一孤岛数据,企业本身有数据我把它记录下来,加工好了加以利用,这是在几年企业级数据利用的关键的步骤。比如说我们很多的系统,管理客户生命周期的系统和管理相应的销售行为系统还有商业智能的系统,这些都是在管理自己业务范围内的用户,基本上不会跑到企业边界之外的搜集和加工。

我们有用到百度这样的产品,虽然说它处理的是行为数据,但是它处理的是你站内的行为数据那么这样的孤岛数据的使用。它的目的是侧重于分析本业务的指标和提高自己的运行的能力,这是我们过去使用数据的目的。这个目的我们用企业内部的孤岛数据是够用的,但是在今天你会发现我们真正要解决这个问题的时候,比如说我做广告营销的,站在广告主自己的角度,仅仅的使用广告主内部的数据是远远不够的,它要维护数据,而且把数据打通在一起去描述用户的偏好,这样我们的数据的就变成对全局数据的加工和利用,所以在这时代,企业要想用好数据,企业要尽量的获得去统一的加工跨行业、跨企业的数据。当然这里边就涉及到很重要的技术和产品,怎么样来做数据的交易,怎么样数据的交换?这个是在孤岛数据时代不存在的问题。

所以在全局的数据的使用上来说,我们更侧重的是全面深度的去理解用户,并且主动的来获取信息和客户,我觉得这一点其实是在意识上很大的一个转变。如果说你的数据系统或者说你的决策者从开始就从来没有想过,要利用自己企业以外的数据,那么你整个大数据系统的架构,可以说是有很大的问题的。将来它不会对大多数只有少量数据或者说规模不大的企业来说,这样的大数据系统不太可能会发挥本质的作用这与传统的商业智能和数据分析不会有本质的差别。

这是我们讲的3个关于大数据在来源方面的特点,最重要的一点就是行为数据和交易数据的差别,首先你要想办法把你原来认为可以记录也可以不记录的数据,由物理的手段和相应的平台把它都记录下来。如果说这一步都没有,我们谈大数据是为时过早的,进而可以去意识到非结构化数据和通过交易的手段来认识到全局的数据。

第二部分我们来谈一下关于大数据的使用方法,这个题目不太合适,我觉得应该叫大数据的应用问题,怎么样的应用问题本质上我们可以认为是大数据的问题?而不是传统的数据分析问题当然我们并不是说要把这两个问题对应起来而是我们在处理问题的时候,所用的产品的结构是有差别的,所以我们要认清什么样的问题是大数据的问题还是非常的有帮助的。

首先一个观点,这个观点很多都说过,采样分析的问题,不属于大数据的问题全量的加工才属于大数据的问题,这个观点我说很多次。如果说你有一个问题,可以通过小部分的数据就相当准确的解决了,不管你的数据的来源有多大,就不能够叫做大数据了。举例,我要统计我们公司的某一款产品在不同地区的用户占比,我这个产品每天有十几亿次的访问,我也要进行采量,采量到万分之一的时候,统计的结构还是可以的。这个特性对采样来说非常的不敏感,你就没有办法去盯着全部的数据,再去到结论。你应该是先采样,这样的问题无论数据有多大就不能够叫做大数据的问题,采样分析的问题,广泛的问题,比如说我们进行分布性的统计,再有一个是人口普查,人口普查有它特殊的状况,因为我本身可以通过行政性的手段让大家来配合,来完成我这个普查,这样的问题我觉得也不属于大数据的问题。

顺便来说一下我个人觉得采样分析的手段,其实并不能够很好的反应整体的内容,在很多的情况下,比如说我们要统计一个广告投放之后的效果,过去在电子的广告方式我们会去找一些种子用户,然后向他们去发调查问卷,看他们对问题的反应的情况,因为这样的方法是存在着偏差,因为填问卷的人是学生,很难认识到高端用户到你的广告是什么态度,这样的结果,就今天来看是非常不准确的

怎么样做呢?如果说我们已经有了大规模的行为数据,建立在我们所讲的第一条的基础上,这些问题必须要通过大规模的行为的架构才能够得到解决,这是真正的大数据的问题。比如说个性化推荐和广告是非常典型的大数据的问题。系统服务的10亿人,我能不能采量100万人来对这100万人来分析呢?因为你分析的结果只是针对于这1万人,其他9万人还是那样,所以你不能够采样。我这里说到:个性化推荐、计算广告、个人征信,就是无法的采样,无法的采样导致的结果就是我们在做一个技术。

比如说广告的调查,举一个很简单的例子,我们在大数据时代怎么样解决呢?比如说电视广告过去我们都依赖央视的这一套电视广告率和收视率的调研,这件事情我们用行为数据很容易解决,在北京大家都有机顶盒,机顶盒能够准确的知道你开机和换台等所有的行为,所以我们通过数据可以来进行加工和分析,但是比较遗憾的是,这样的做出来也没有人信,大家还是相信央视的。这当中有市场的原因。

因为全量加工的问题所以就必然导致工程上的问题大规模的计算无法避免我们所讲的逻辑是我们想要避免大规模的计算,没有人想一定要把10亿人的数据每天都算一遍,如果说问题的特性使得你必须要算,这就是彻底的大数据的问题,你在计算的架构上必须要做出调整。用传统的方案来做这样的产品,及时能够做出来,成本也是你无法承受的,因为它的价值密度低。

这个配置我们要说一个数据的两类应用,这个不是我总结的,我不知道是谁总结的,有两个词,洞察应用和自动化应用,洞察应用是什么呢?就是报表,就是全局和局部统计信息的获取,比如说企业的财务信息的获取把企业的数据统计成三张财务报表,你从这三张财务报表之中能够反应出现金流的情况。日常运营的报表也是属于洞察,简单的说洞察就是报表或者说是报告。这一类应用它的目的是什么呢?主要是用于宏观的决策的支持,财务人员和你的CEO、CFO,要通过这个报告对企业的健康状况做出评估和调整。另外是给领导和运营的人员看的,这是我们所讲的洞察。自动化是什么意思?就是我的应用本身的目的,是为了捕获个体的行为和特征,比如说定向广告,定向广告所需要不是最后有一个报表,说北京市的用户喜欢什么结构,我们要的是每一个用户喜欢什么样的商品?我们的密度是在用户这一级的如果说用户在这一级我们的自动化还可以叫做个性化,自动化并不一定是个性化,也可能是对企业级的分析比如说B2B的业务,下面有大量的中小卖家,你对每一个卖家的建模和分析,仍然是一个自动化的业务,但是我们不能够把它叫做个性化的业务。

它用于什么场景?用于微观业务的实施。每个人的画像,用的就是为这个人本身的内容和定向广告的投送来服务的,所以它是用在非常微观的使用的场景里。面向的对象就不是给领导看的,而是给销售人员看的。这是下面要讲的。

其实我们讲的这几点都是非常内在的有确切的联系的,洞察天生适合的场景是给专家决策用的,自动化天生适合的场景是为数据分析师所服务的。自动化的结果之中也从当中来发现一些内容,白对它做研究,所以这是有交叉的,所以我们把分成两点来介绍。专家的决策是什么意思呢?数据输出的结构由人分析之后,就是我拿到报表之后,通过分析来调整运营系统,让我的生产系统有所变化,这是我们专家决策的目的。我个人的感受,要想用数据来指导数据+专家的模式来指导运营系统在大多数的情况下,并不见得可以。为什么这样讲呢?拿企业的财报为例,财报是非常简单的三张表,但是要想看懂这一张表,深入的解读并做出调整,必须要由非常专业的财务人员和非常有经验的财务人员才能够看懂这三张表和用好这三张表,同样的道理你每一张机器生成的报表,你面对不是一个训练有素人员,你想要让没有经过训练的人员拿到报表做出反应,影响生态系统,最后的我看到的结果是很悲观的。往往结果不会对生态系统产生什么实质正面的影响,很可能是看完报表一笑就过去了。或者说他会根据他的解读对——系统做出更加错误的行为,我个人不推荐数据给人用。

什么是机器决策呢?和自动化应用相关。这个地方,出来的是自动化的结果,就是在个体级别的数据。这些数据按照一定的古泽来影响到线上数据的决策,同时这个数据再回来形成一个有效的闭环,我们讲的自动化就是这个意思,数据从它的产生到加工到影响到决策的过程再到重新的产生这个过程是自动化的,是一个闭环,没有人在里面起作用,这样的往往比人在里边产生的价值要多得多。

深入的利用数据,比如说我的每一个用户打画像这样的应用的场景,是唯一的可能性,人不可能对这一块做决策,现在的广告业务也都一样,我们采用实时竞价的模式,都要去算自己的标签,人是完全做不了这个事的,这样的流程是符合大数据使用的基本的原理的。

所以我的看法是只有给机器用的才是真正的大数据,这一点我就不多说了,但是要提醒大家注意,你设计一个大数据的使用的系统,你要特别要利用好的是,大数据的使用系统的一致性的要求是低的。如果说你把握不好这个特点,你设计一个个性化的推荐系统和广告的系统,你的策略,你最后达到了5个9、4个我可以保证你的设计不是最好的因为你浪费了大量的成本,而是你应该降到3个9和2个9都没有问题。

厂商方案和开源方案,厂商方案以IOE和微软为代表。开源方案不一样,我们知道hadoop 和spark,这两个换了场景,他的可行性就大打折扣,所以它是专用场景的方案,关键的一点就是综合的成本要降下来,成本降下来你才能够在数据里获得利润。

最后一点是关于简单的建模和深度的学习。过去我在雅虎的时候,我们就说过,当时我们利用数据的主题是,在大量的数据上做浅层的挖掘。今天这个观点已经过时了,今天已经发展到,大量的数据浅层挖掘我们做得很好了,大量的数据在高可用的平台上,做深层次的挖掘如何利用技术来挖掘出正是正在发生的关于大数据使用的一个重要的方向。

从这9个点里我提出了3个最关键的点,我自己认为你在面对任何一个行业,你要去拥抱大数据时代,要找到大数据的接入的时候要想清楚3点问题,第一点找到一个自动化应用,找到一个可以用机器决策的自动化应用;第二找到相应的行为数据来源;第三确定你的全量加工的技术和相应的问题。

我简单的说两个例子,保险行业,自动化的应用是什么呢?我们经过分析很清楚,非理财险的保险很高,你在机场买的保险20块钱,进价可能是5毛钱,我们对某一类型的用户,来预估它的出险率,再给以合理化的定价,我们可以扩大非理财险的销售额。这个地方是有巨大的空间的。行为数据是什么呢?比如说车险,去年所有汽车形式的状况,过去只有一点,上年有没有出险,这只是交易数据。如果说你把它的行为数据用起来对他的出险率能够了解。还有就是各个地区,我们对某一种病的发病率有很大的评估。出险率预估+个性化定价,是保险行业最大的空间。原来是10万,我评估大数据的评估,发现的出险率是别人的1/3,我就3万块钱卖给你,在这3万块钱上,你的利润率比普通的用户更高。

再一个就是医疗,医疗的行为数据是什么呢?可穿戴设备、云存储,个人健康数据,这件事情大家没有见过。医疗行业大家从来没有见过行为,但是行为数据在未来的几年里,马上就要大规模的产生了。行为数据产生了之后,我们的自动化应用是什么呢?是基于个人的健康数据实现个性化的医疗和点对点的医疗的模式,这当中的想象空间有多大这是基于在行为数据上。行为数据也可以促升洞察应用,比如说北京的糖尿病病人的可以汇总到糖尿病的专家的面前,可以对他的治疗方案起到很大的作用从医疗上来说到,大数据是个人健康建模+疾病的管理的预防。

更多精彩内容,请关注新浪微博:@CSDN、图文直播专题:2015中国软件开发者大会。


分享到:


相關文章: