谁能跟我解释一下,大数据到底是什么?最主要它能干什么?

绿叶上面七根鱼刺


大数据,不仅仅是数据量大,同时在其他方面,也有一定的特点。

第一,大数据数据体量非常大,传统的单机存储系统,已经无法在存储这么大量的数据,此时需要用到分布式存储技术。

第二,大数据的数据种类非常多,数据的格式也会变得复杂,比如数据种类有视频、文档、图片、消息记录等等。

第三,大数据中潜藏着非常重要的价值,通过数据分析技术,对商业决策做出智能化以及数据化的支持。

大数据最主要的功能,就是为公司上层提供商业化决策支持,让公司能够结合历史数据,往正确的方向发展。大数据技术主要分为两类:大数据计算和大数据存储。

大数据计算主要分为离线计算和实时计算,具体使用要看业务场景对于数据产出时延的要求

离线计算对于数据的产出会有一定的时延,具体时延可以是15分钟、小时或者天级别的。离线任务一般会对数据进行全局批计算,这一次运行完就运行完了,不会像实时计算那样,除非你自己停止实时任务,否则实时程序会一直运行。

实时计算数据是不断产生的,一般数据产出的延迟会很低,最多是秒级别的。比如我们的数据大屏、实时数据流的加工处理等,这些场景对于数据的产出的时延要求很低。

离线计算的话,一般对于数据的产出时延没有那么高的要求,只要数据最终产出即可,具体使用像现在很多公司离线业务报表。目前大多数公司离线计算引擎使用的是Hive或者Spark,实时计算引擎目前主要是Flink。

大数据存储需要数据分布式存储,单机不能够在存储这么多巨量数据

在传统的关系型数据库中,当一个表非常大时,会使用分库分表技术,将表分布式的存储在不同的机器上面。分库分表技术可以使用开源工具TDDL。

在非关系型NoSQL数据库中,一般最底层的文件存储系统可以选择HDFS。HDFS文件系统将文件按照块来进行存储,一个块的大小为128兆,同时每个块会存储三份,对数据进行容灾存储,即使其中一个块坏了,可以选择其他块进行数据恢复。

分布式数据库系统可以对数据表进行水平分割和垂直分割。比如HBase数据库,水平分割使用的是Region,垂直分割则是使用的列族。

分布式数据存储技术,需要不同机器一起协同工作,每台机器存储整体数据的一个子集。在未来大数据时代,肯定都会使用分布式数据存储,分布式数据库,会成为大数据系统的标配。


我是Lake,专注大数据技术原理、人工智能、数据库技术、程序员经验分享,如果我的问答对你有帮助的话,希望你能点赞关注我,感谢。

我会持续大数据、数据库方面的内容,如果你有任何问题,也欢迎关注私信我,我会认真解答每一个问题。期待您的关注


Lake说科技


什么是大数据及应用?大数据即为海量数据。人类生活在三维空间中,一草一木,一山一水,人类活动的行为轨迹,都能用数据来表达。如企业的生产运营,商品标准。政府的管理决策,消费者的消费水平,消费习惯。地理环境的一条公路,一条河流等等。每方面都有每方面的大数据。每个行业都有每个行业的大数据。通过各企业,行业,社会主体等等数据的集成。形成了概念更大,更有价值的大数据流。通过宇宙万物是互联的原理。以及逻辑关系的分析。能够得到。关于社会治理,企业运营,个人服务的便捷可靠,真实的服务方案。一件事物的组成并非由单一因素组成。由多方组合或者协同完成的。一件衣服的完成,要有生产布料的厂家,制衣厂家,制扣厂家,制线厂家,设计方,工人加工等等环节组合而成。大数据也是如此。大数据应用也是如此。人类刚刚迈入数字经济时代。既为以数据为生产资料的时代。谁能掌握大数据以及大数据的应用?更好地服务于人类社会。谁就占据了未来财富以及地位的制高点。中国战略性新兴产业联盟河北唐冠众兴科技有限公司毕绍鹏回答


毕绍鹏


大数据就是你行动行为的轨迹,将来可能会塑造成为你的影子,影子最终服务于你,预测到你的衣食住行,使你做到所想而行,比如你想自杀,它可能把刀放到你面前。


超全栈裙729240147


大数据其实是一种信息资产的集合。说白了就是信息。至于能干什么嘛,你现在能想到的除了人力劳动,其他的几乎都可以用得到大数据。比如,写悟空问答,你不好奇为什么那么多的看头条的人为什么偏偏要选择我来让你邀请回答吗?原因很简单,可能是我前段时间一直在写大数据的内容,也有可能是我前段时间一直浏览着大数据的相关内容等等一切关于大数据的,这成为了大数据判定我是个大数据从业者的依据,所有邀请界面出现了我而不是其他人。再举个简单的例子,你在淘宝上搜了一件衬衣,下次打开淘宝的时候发现它会给你推各种各样的衬衣或者是周边产品。道理是一样的。大数据会根据你的习惯来判定你需要什么。这就是大数据的魅力所在。


安徽据说牛信息科技


为什么要给你解释?


大灰狼和七只小白羊


就是统计与概率学在海量数据基础上的日常应用


分享到:


相關文章: