大数据如何获得?如何统计分析?

丁香连翘


大数据时代,用数据做出理性分析显然更为有力。做数据分析前,能够找到合适的的数据源是一件非常重要的事情,获取数据的方式有很多种,不必局限。下面将从公开的数据集、爬虫、数据采集工具、付费API等等介绍。给大家推荐一些能够用得上的数据获取方式,后续也会不断补充、更新。

一、公开数据库

1.常用数据公开网站

UCI:经典的机器学习、数据挖掘数据集,包含分类、聚类、回归等问题下的多个数据集。很经典也比较古老,但依然活跃在科研学者的视线中。

国家数据:数据来源中华人民共和国国家统计局,包含了我国经济民生等多个方面的数据,并且在月度、季度、年度都有覆盖,全面又权威。

CEIC:最完整的一套超过128个国家的经济数据,能够精确查找GDP、CPI、进口、出口、外资直接投资、零售、销售以及国际利率等深度数据。其中的“中国经济数据库”收编了300,000多条时间序列数据,数据内容涵盖宏观经济数据、行业经济数据和地区经济数据。

万得:简要介绍:被誉为中国的Bloomberg,在金融业有着全面的数据覆盖,金融数据的类目更新非常快,据说很受国内的商业分析者和投资人的亲睐。

搜数网:已加载到搜数网站的统计资料达到7,874本,涵盖1,761,009张统计表格和364,580,479个统计数据,汇集了中国资讯行自92年以来收集的所有统计和调查数据,并提供多样化的搜索功能。

中国统计信息网:国家统计局的官方网站,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息,建立了以统计公报为主,统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等。

亚马逊:来自亚马逊的跨科学云数据平台,包含化学、生物、经济等多个领域的数据集。

figshare:研究成果共享平台,在这里可以找到来自世界的大牛们的研究成果分享,获取其中的研究数据。

github:一个非常全面的数据获取渠道,包含各个细分领域的数据库资源,自然科学和社会科学的覆盖都很全面,适合做研究和数据分析的人员。

2.政府开放数据

北京市政务数据资源网:包含竞技、交通、医疗、天气等数据。

深圳市政府数据开放平台:交通、文娱、就业、基础设施等数据。

上海市政务数据服务网:覆盖经济建设、文化科技、信用服务、交通出行等12个重点领域数据。

贵州省政府数据开放平台:贵州省在政务数据开放方面做的确实不错。

http://Data.gov:美国政府开放数据,包含气候、教育、能源金融等各领域数据。

3.数据竞赛网站

竞赛的数据集通常干净且科研究性非常高。

DataCastle:专业的数据科学竞赛平台。

Kaggle:全球最大的数据竞赛平台。

天池:阿里旗下数据科学竞赛平台。

Datafountain:CCF制定大数据竞赛平台。

二、利用爬虫可以获得有价值数据

这里给出了一些网站平台,我们可以使用爬虫爬取网站上的数据,某些网站上也给出获取数据的API接口,但需要付费。

1.财经数据

(1)新浪财经:免费提供接口,这篇博客教授了如何在新浪财经上获取获取历史和实时股票数据。

(2)东方财富网:可以查看财务指标或者根据财务指标选股。

(3)中财网:提供各类财经数据。

(4)黄金头条:各种财经资讯。

(5)StockQ:国际股市指数行情。

(6)Quandl:金融数据界的维基百科。

(7)Investing:投资数据。

(8)整合的96个股票API合集。

(9)Market Data Feed and API:提供大量数据,付费,有试用期。

2.网贷数据

(1)网贷之家:包含各大网贷平台不同时间段的放贷数据。

(2)零壹数据:各大平台的放贷数据。

(4)网贷天眼:网贷平台、行业数据。

(5)76676互联网金融门户:网贷、P2P、理财等互金数据。

3.公司年报

(1)巨潮资讯:各种股市咨询,公司股票、财务信息。

(2)http://SEC.gov:美国证券交易数据

(3)HKEx news披露易:年度业绩报告和年报。

4.创投数据

(1)36氪:最新的投资资讯。

(2)投资潮:投资资讯、上市公司信息。

(3)IT桔子:各种创投数据。

5.社交平台

(1)新浪微博:评论、舆情数据,社交关系数据。

(2)Twitter:舆情数据,社交关系数据。

(3)知乎:优质问答、用户数据。

(6)Tumblr:各种福利图片、视频。

6.就业招聘

(1)拉勾:互联网行业人才需求数据。

(2)中华英才网:招聘信息数据。

(3)智联招聘:招聘信息数据。

(4)猎聘网:高端职位招聘数据。

7.餐饮食品

(1)美团外卖:区域商家、销量、评论数据。

(2)百度外卖:区域商家、销量、评论数据。

(3)饿了么:区域商家、销量、评论数据。

(4)大众点评:点评、舆情数据。

8.交通旅游

(1)12306:铁路运行数据。

(2)携程:景点、路线、机票、酒店等数据。

(3)去哪儿:景点、路线、机票、酒店等数据。

(4)途牛:景点、路线、机票、酒店等数据。

(5)猫途鹰:世界各地旅游景点数据,来自全球旅行者的真实点评。

类似的还有同程、驴妈妈、途家等

9.电商平台

(1)亚马逊:商品、销量、折扣、点评等数据

(2)淘宝:商品、销量、折扣、点评等数据

(3)天猫:商品、销量、折扣、点评等数据

(4)京东:3C产品为主的商品信息、销量、折扣、点评等数据

(5)当当:图书信息、销量、点评数据。

类似的唯品会、聚美优品、1号店等。

10.影音数据

(1)豆瓣电影:国内最受欢迎的电影信息、评分、评论数据。

(2)时光网:最全的影视资料库,评分、影评数据。

(3)猫眼电影专业版:实时票房数据,电影票房排行。

(4)网易云音乐:音乐歌单、歌手信息、音乐评论数据。

11.房屋信息

(1)58同城房产:二手房数据。

(2)安居客:新房和二手房数据。

(3)Q房网:新房信息、销售数据。

(4)房天下:新房、二手房、租房数据。

(5)小猪短租:短租房源数据。

12.购车租车

(1)网易汽车:汽车资讯、汽车数据。

(2)人人车:二手车信息、交易数据。

(3)中国汽车工业协会:汽车制造商产量、销量数据。

13.新媒体数据

新榜:新媒体平台运营数据。

清博大数据:微信公众号运营榜单及舆情数据。

知微传播分析:微博传播数据。

14.分类信息

(1)58同城:丰富的同城分类信息。

(2)赶集网:丰富的同城分类信息。

如果你是小白,想通过爬虫获得有价值的数据,推荐我们的体系课程——Python爬虫:入门+进阶

三、数据交易平台

由于现在数据的需求很大,也催生了很多做数据交易的平台,当然,出去付费购买的数据,在这些平台,也有很多免费的数据可以获取。

优易数据:由国家信息中心发起,拥有国家级信息资源的数据平台,国内领先的数据交易平台。平台有B2B、B2C两种交易模式,包含政务、社会、社交、教育、消费、交通、能源、金融、健康等多个领域的数据资源。

数据堂:专注于互联网综合数据交易,提供数据交易、处理和数据API服务,包含语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别等方面的数据。

四、网络指数

百度指数:指数查询平台,可以根据指数的变化查看某个主题在各个时间段受关注的情况,进行趋势分析、舆情预测有很好的指导作用。除了关注趋势之外,还有需求分析、人群画像等精准分析的工具,对于市场调研来说具有很好的参考意义。同样的另外两个搜索引擎搜狗、360也有类似的产品,都可以作为参考。

阿里指数:国内权威的商品交易分析工具,可以按地域、按行业查看商品搜索和交易数据,基于淘宝、天猫和1688平台的交易数据基本能够看出国内商品交易的概况,对于趋势分析、行业观察意义不小。

友盟指数:友盟在移动互联网应用数据统计和分析具有较为全面的统计和分析,对于研究移动端产品、做市场调研、用户行为分析很有帮助。除了友盟指数,友盟的互联网报告同样是了解互联网趋势的优秀读物。

爱奇艺指数:爱奇艺指数是专门针对视频的播放行为、趋势的分析平台,对于互联网视频的播放有着全面的统计和分析,涉及到播放趋势、播放设备、用户画像、地域分布、等多个方面。由于爱奇艺庞大的用户基数,该指数基本可以说明实际情况。

微指数:微指数是新浪微博的数据分析工具,微指数通过关键词的热议度,以及行业/类别的平均影响力,来反映微博舆情或账号的发展走势。分为热词指数和影响力指数两大模块,此外,还可以查看热议人群及各类账号的地域分布情况。

除了以上指数外,还有谷歌趋势、搜狗指数、360趋势、艾漫指数等等。

五、网络采集器

网络采集器是通过软件的形式实现简单快捷地采集网络上分散的内容,具有很好的内容收集作用,而且不需要技术成本,被很多用户作为初级的采集工具。

造数:新一代智能云爬虫。爬虫工具中最快的,比其他同类产品快9倍。拥有千万IP,可以轻松发起无数请求,数据保存在云端,安全方便、简单快捷。

火车采集器:一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息。

八爪鱼:简单实用的采集器,功能齐全,操作简单,不用写规则。特有的云采集,关机也可以在云服务器上运行采集任务。


帆软软件



大数据的数据来源主要有三个渠道,分别是物联网系统、传统信息处理系统以及互联网应用(Web和App),所以要想获得大数据就要从这三个渠道来获取。

物联网系统产生的数据占据着大数据中的重要比例,物联网产生的数据多以非结构化数据为主,包括视频、音频、传感数据等等。物联网的应用领域众多,比如工业物联网、农业物联网、车联网、智慧城市等都会产生大量的数据,通常情况下这些数据的采集都是有严格要求的,是不能开放给个人的。如果个人要想获得这部分数据,一个比较可行的方案是跟数据采集者进行合作,比如做数据分析等业务。

传统信息系统涵盖的领域非常广泛,有政务系统、企业ERP、教育信息系统、医疗信息系统等等,传统信息系统涵盖的数据多以结构化数据为主,而且往往有较高的精确度和关联关系,这部分数据的价值密度也是相对比较高的。

但是传统信息系统涵盖的数据往往涉及到个人隐私、商业机密等内容,所以这部分内容通常是受到严密保护的。随着大数据技术的发展,业界对于政务系统的数据开放的呼声越来越高,经过脱敏的数据往往并不会对个人隐私构成侵犯,所以未来某些政务系统的大数据会陆续开放出来。

互联网应用也是产生大数据的重要基础之一,包括各种Web应用以及大量的App产品,这部分数据多以半结构化为主,数据内容也存在真假难辨的情况,但是由于这部分数据的价值密度相对还是比较高的,所以现在不少互联网公司就是基于这些数据对用户进行“画像”,从而进行多维度的分类。

至于大数据分析工具,推荐2个给你。

1、FineReport

FineReport是一款纯Java编写的、集数据展示(报表)和数据录入(表单)功能于一身的企业级web报表工具,它“专业、简捷、灵活”的特点和无码理念,仅需简单的拖拽操作便可以设计复杂的中国式报表,搭建数据决策分析系统。

来看看它做的dashboard吧:

很多人看到上述的可视化会好奇,这是什么图表制作的。其实大多由FineReport自带的H5图表。此前有提到FineReport良好的开放性,可让IT同事写代码开发,所以在制作时,也可接入Echarts等第三方控件来制作图表。

2、FineBI

FineBI是新一代自助大数据分析的商业智能产品,提供了从数据准备、自助数据处理、数据分析与挖掘、数据可视化于一体的完整解决方案,也是我比较推崇的可视化工具之一。

首先FineReport作为一款报表工具,主要用于解决提升IT部门的常规/复杂报表开发效率问题;而FineBI是商业智能BI工具,在IT信息部门分类准备好数据业务包的前提下,给与数据,让业务人员或领导自行分析,满足即席数据分析需求,是分析型产品。

FineBI的使用感同Tableau类似,都主张可视化的探索性分析,有点像加强版的数据透视表。上手简单,可视化库丰富。可以充当数据报表的门户,也可以充当各业务分析的平台。


IT技术管理那些事儿


从数据源角度,可以将大数据统计工具分两类:有数据源和无数据源。


有数据源

解释:依靠海量网络数据为数据源,整理呈现分析最终展现出来给你看的统计工具。

此类工具包括:

  • 百度指数:以百度海量网民行为数据为基础的数据分享平台:

  • 5118:可掌控一些大网站运营所需的关键数据(如今日头条)

  • 阿里指数:电商必备的行业价格、供应、采购趋势分析工具

其他还包括微信指数/搜狗指数/360指数/微指数……


无数据源

解释:工具本身是不带数据源的,需要企业根据需要去导入数据。

此类工具包括:

  • fineBI:新一代自助大数据分析的BI工具,所见所得的自助式数据分析

  • Tableau:将数据运算与美观的图表嫁接在一起。

其他还包括魔镜/RapidMiner……


以上答案由数据化管理云平台【简道云 】整理提供


简道云


“大数据的运用,汽车私人定制服务已经不远。”

这里仅从笔者比较熟悉的汽车行业举一个例子,分享一下车联网大数据在汽车产业运用的一个例子,抛砖引玉。

背景

2017年我国汽车保有量已经达到2.05亿辆,而且预计在未来的销量还会增加,到2020年达到3000万辆。

汽车的最终目的是为人们提供移动出行的解决方案,对于未来汽车的发展趋势,业界基本上有一个共识,未来的汽车会朝着“电动化,网联化,智能化,共享化”四个方向发展。

以用户为中心的生态链

基于汽车网联化的发展,形成了以用户为中心的生态链,如下图:

围绕在车主周围,有不同层级的参与者。传统的主机厂,汽车制造商,硬件供应商,4S店,只是其中很一小部分。还有各种服务商,提供商,开发商,保险公司,传媒,甚至教育机构,也扮演着重要的角色。

车联网能够将这些参与者全部连接起来,靠什么?

大数据

汽车产业数据,驾驶行为数据,汽车感知数据,外部环境数据,还有最重要的人的社会数据,都储存在“庞大的汽车保有量”这个数据库中。

围绕着车联网,以上的数据不断地更新,不断地累积,形成了庞大的数据库,可被收集,并进行分析和处理。

运用举例-私人定制服务

通过数据处理,得到基于用户里程的分布,轨迹,行驶速度,超速违规事件一系列统计:

由此,构建出一个精准的用户画像,做什么,爱好是什么,习惯什么等等。

那么,针对于该用户,各种服务商就可以提供私人的“定制服务”,比如安全指导,保费个性化,出行效率提升等等。

据估计,车联网的市场规模从目前年250亿,到2020年能够达到4000亿元,又是一个巨大的蛋糕。

版权声明:本文为“汽车人参考”原创,如需转载,请务必提前联系。转载时请注明“本文出处于+媒体平台名称+汽车人参考”以及原文链接,侵权必究。

汽车圈儿的清流


汽车人参考


大数据或称巨量数据、海量数据;是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的集成共享,交叉复用形成的智力资源和知识服务能力。在商业领域指的是所涉及的资料规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。对于组织和个人职业生涯而言,成功的大数据项目应该都是一场成果显著的胜利。但如果优先顺序出错,那么大数据项目在实行伊始便注定将以失败告终。区分数据真实度(veracity)、可视化(visualization)(value)的优先顺序是成功的关键。

大数据处理具体的大数据处理方法其实有很多,但是根据长时间的实践,笔者总结了一个基本的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。

我了解的利用大数据引擎系统帮助传统企业做精准营销的公司是湖北米多科技,他们有完整的数据系统,利用二维码为入口,全场景赋码的理念和空码赋值的技术,重构传统品牌企业大数据基因。关于如何获取大数据和如何进行统计分析,你可以查查他们的官网 湖北米多科技 了解详细的信息。



飞鸟23275407


主要讨论大数据的分析

从所周知,大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。那么越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于如此的认识,大数据分析普遍存在的方法理论有哪些呢?

1. 可视化分析。大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。

2. 数据挖掘算法。大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。

3. 预测性分析。大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。

4. 语义引擎。非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。

5.数据质量和数据管理。大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。

大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。

大数据的技术

数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

数据存取:关系数据库、NOSQL、SQL等。

基础架构:云存储、分布式文件存储等。

数据处理:自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机”理解”自然语言,所以自然语言处理又叫做自然语言理解(NLU,Natural Language Understanding),也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

数据挖掘:分类 (Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)

模型预测:预测模型、机器学习、建模仿真。

结果呈现:云计算、标签云、关系图等。

大数据的处理

1. 大数据处理之一:采集

大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

2. 大数据处理之二:导入/预处理

虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

3. 大数据处理之三:统计/分析

统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

4. 大数据处理之四:挖掘

与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。


分享到:


相關文章: