大数据告诉你我国什么地方是吃货聚集地R语言代码讲解

昨天给大家分享了我国什么地方吃货最多的分析结果,今天给大家上R语言分析过程和代码。

本文需要用到的R包有reshape2、plyr、ggplot2、Hmisc、coefplot。

1、整理数据

由于我们下载到的数据是好几个单表,为了后期数据处理方便我们需要合成一个单表。

图为:中华人民共和国国家统计局下载的各省市人们平均年收入数据

如图列命都是中文命名,为了方便R语言程序处理我们把列命命名为“zone、y2016、y2015、y2014、y2013,如下图

从表中我们可以发现对于特定的城市,每年的数值在不同的列中,也就是所谓的交叉表,虽然方便人类使用,但对于我们接下来用ggplot2作图和数据分析算法不理想,我们想让他设置为每一行代表一个单独的城市-指标-年,因此我们使用reshape包中的melt函数来“融化”这些数据,使其变成单独的城市-年-指标

其他表同样的处理,之后就是用plyr包中的join函数按照“zone”和“year”两个字段把所有表链接起来。

最后处理好的数据是这样的

计算人均消费支出的数据、全部消费与收入比、饮食消费与全部消费比

到这里我们的数据全部处理好了,接下来就是数据可视化的操作,用到ggplot2包制作图像。

1、各省市人均收入

人均收入箱线图

2、连锁餐饮企业门店个数

4、人均消费率

5、用于餐饮的消费率

建立数据模型

1、构建人均消费和收入率的模型

2、构建连锁门店数量和消费率的模型(和上面代码一样,这里也没有封装,直接重复使用代码)

3、构建餐饮行业从业人数和消费率的模型

4、构建餐饮消费率与人均收入、门店个数、和从业人数的模型