大数据的定义:海量的、复杂的数据集合

大数据的定义:海量的、复杂的数据集合

大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。

  1. 数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。

  2. 数据类型繁多(Variety)。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

  3. 价值密度低(Value)。价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

  4. 处理速度快(Velocity)。大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。

看看专家们怎么说。

  • 舍恩伯格,大数据时代

不是随机样本,而是全体数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。

  • 埃里克·西格尔,大数据预测

大数据时代下的核心,预测分析已在商业和社会中得到广泛应用。随着越来越多的数据被记录和整理,未来预测分析必定会成为所有领域的关键技术。

  • 城田真琴,大数据的冲击

从数据的类别上看,“大数据”指的是无法使用传统流程或工具处理或分析的信息。 它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。

大数据的价值

了解了大数据的典型应用,理解了大数据的定义。这时相信在每个人的心中,关于大数据的价值都有了自己的答案。

2010年《Science》上刊登了一篇文章指出,虽然人们的出行的模式有很大不同,但我们大多数人同样是可以预测的。这意味着我们能够根据个体之前的行为轨迹预测他或者她未来行踪的可能性,即93%的人类行为可预测。

大数定理告诉我们,在试验不变的条件下,重复试验多次,随机事件的频率近似于它概率。“有规律的随机事件”在大量重复出现的条件下,往往呈现几乎必然的统计特性。

举个例子,我们向上抛一枚硬币,硬币落下后哪一面朝上本来是偶然的,但当我们上抛硬币的次数足够多后,达到上万次甚至几十万几百万次以后,我们就会发现,硬币每一面向上的次数约占总次数的二分之一。偶然中包含着某种必然。

随着计算机的处理能力的日益强大,你能获得的数据量越大,你能挖掘到的价值就越多。

实验的不断反复、大数据的日渐积累让人类发现规律,预测未来不再是科幻电影里的读心术。

  • 如果银行能及时地了解风险,我们的经济将更加强大。

  • 如果政府能够降低欺诈开支,我们的税收将更加合理。

  • 如果医院能够更早发现疾病,我们的身体将更加健康。

  • 如果电信公司能够降低成本,我们的话费将更加便宜。

  • 如果交通动态天气能够掌握,我们的出行将更加方便。

  • 如果商场能够动态调整库存,我们的商品将更加实惠。

最终,我们都将从大数据分析中获益。

结束语。

Here's the thing about the future.关于未来有一个重要的特征

Every time you look at it,每一次你看到了未来

it changes because you looked at it.它会跟着发生改变 因为你看到了它

And that changes everything else.然后其它事也跟着一起改变了

数据本身不产生价值,如何分析和利用大数据对业务产生帮助才是关键。

祝每一个DMer都挖掘到金矿和快乐:)

想要和大家一起学习交流大数据的小伙伴,可以关注小编,私信发 大数据。


分享到:


相關文章: