掌握了这些数据专业术语,也太太太太太实用了!

如果作为一个公司的财务,向公司老板汇报报销情况,在去年里消费中 25% 用于员工奖励礼品,35% 用于出差报销,20% 用于团建项目,其他的用于杂物,这就是描述性的分析。

预测分析(Predictive Analytics)

仍然是公司报销举例,如果你分析了过去3年的报销记录,发现当中有一定的一致性,那么你可以较有把握地预测,明年的情况将与过去几年类似。值得注意的是,这并不是“预测未来”,而是“预测事情发生的可能性”。在大数据预测分析中,数据科学家会使用数据挖掘,机器学习和高级统计过程等先进技术,进行天气,经济等方面的预测。

云计算(Cloud computing)

云计算已经变得无所不在,所以在这里仅处于完整性的考虑将其归纳在内。它本质上是在远程服务器上托管和运行的软件及数据,并可从互联网的任何地方进行访问。

集群计算(Cluster computing)

这是一个使用多个服务器集合资源的“集群”的计算术语。要想更技术性的话,就会涉及到节点,集群管理层,负载平衡和并行处理等概念。

暗数据(Dark Data)

基本上指的是,由企业收集和处理的,但并不用于任何意义性目的的数据,因此它是“暗”的,可能永远不会被分析。它可以是社交网络反馈,呼叫中心日志,会议笔记等等。有很多人估计,所有企业数据中的 60-90% 可能是“暗数据”,但不确定是真假。

数据挖掘(Data mining)

数据挖掘是通过使用复杂的模式识别技术,从而找到有意义的模式,并得出大量数据的见解。这与我们之前讨论的“数据分析”术语密切相关,因为你将通过挖掘数据进行分析。为了获得有意义的模式,数据挖掘者使用统计,机器学习算法和人工智能。

内存计算(In-memory computing)

一般来说,任何可以在不访问 I / O 的情况下完成的计算都是很快的。内存计算是一种将工作数据集完全放在集群的集体内存中,避免将中间计算写入磁盘的技术。Apache Spark 是一个内存计算系统,它在速度超过 I / O 绑定系统(如 Hadoop 的MapReduce)方面拥有巨大的优势。

流处理(Stream processing)

流处理旨在对有“连续”要求的实时和流数据进行处理。结合流分析,即在流内不间断地计算数学或统计分析的能力。流处理解决方案旨在对高流量进行实时处理。

R

R 是一种编程语言,在统计计算方面很出色。如果你不知道 R,你就称不上是数据科学家。R 是数据科学中最受欢迎的语言之一。

机器学习(Machine learning)

机器学习是指通过提供的数据,使系统能够学习,调整和改进。通过预测和统计算法,他们不断学习“正确”的行为和洞察力,随着更多的数据流通过该系统,得以不断地改进。

今天的分享到这里结束啦,喜欢请点赞,有想要和鱼君交流, 随时来撩


分享到:


相關文章: