R语言数据特征分析——分布分析

R语言数据特征分析——分布分析

对数据进行质量分析以后,接下来可通过绘制图表、计算某些特征量等手段进行数据的特征分析。首先讲解分布分析

分布分析能揭示数据的分布特征和分布类型。对于定量数据,我们想要了解其分布形式是对称的还是非对称的、发现某些特大或特小的可疑值,可做出频率分布表、绘制频率分布直方图、绘制茎叶图进行直观地分析;对于定性数据,可用饼形图和条形图直观地显示分布情况。

定量数据的分布分析

对于定量变量,选择“组数”和“组宽”是做频率分布分析时最主要的问题,一般按照一下步骤:

  1. 求极差;

  2. 决定组距和组数;

  3. 决定分点;

  4. 列出频率分布表;

  5. 绘制频率分布直方图;

遵循的主要原则有:

  1. 各组之间必须是相互排斥的;

  2. 各组必须将所有的数据包含在内;

  3. 各组的组宽最好相等;

下面结合具体数据运用分布分析对定量数据进行特征分析:

下表是描述菜品捞起生鱼片在2014年第二个季度的销售数据,绘制销售量的频率分布表、频率分布图,对该定量数据做出相应的分析。数据可在

https://github.com/windform/R/blob/master/R%E8%AF%AD%E8%A8%80%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98/%E6%95%B0%E6%8D%AE%E8%B4%A8%E9%87%8F%E5%88%86%E6%9E%90/chapter3/data/catering_fish_congee.xls进行下载。

R语言数据特征分析——分布分析

(1)求极差

极差=最大值-最小值=3960-45=3915(元)

(2)决定组距和组数

这里根据业务数据的含义,可取组距为500,组数=极差/组距=3915/500=7.83

(3)决定分点

根据组数和组距,可确定以下的分布区间:

R语言数据特征分析——分布分析

(4)列出频率分布表

根据分组区间可制作出频率分布表。其中,第1列将数据所在的范围分成若干组段,其中第一个组段要包括最小值,最后一个组段要包括最大值。习惯上将各组段设为左闭右开的半开区间,如第1个分组为[0,500)。第2列组中值是各组段的代表值,由本组段的上、下限相加除以2得到。第3列和第4列分别为频数和频率。第5列示累计频率,是否需要计算该列视情况而定。

R语言数据特征分析——分布分析

(5)绘制频率直方图

若以2014年第二季度捞起生鱼片每天的销售额为横轴,以各组段的频率密度(频率与组距之比)为纵轴,可绘制成以下频率分布直方图:

R语言数据特征分析——分布分析

定性数据的分布分析

对于定性变量,常常根据变量的分类类型来分组,可以用饼形图和条形图来描述定性变量的分布。

饼形图的每一个扇形部分代表每一类型的百分比或频数,根据定性变量的类型数目将饼形图分成几个部分,每一部分大大小与每一类型的频数成正比;条形图的高度代表每一类型的百分比或频数,条形图的宽度没有意义。

R语言数据特征分析——分布分析

饼形图

R语言数据特征分析——分布分析

条形图


分享到:


相關文章: