看穿数据,看透事实——分布形态描述

看穿数据,看透事实——分布形态描述

如果觉得文章对你有用,欢迎关注、转发、点赞、收藏。

对数据集选用适合的描述指标,能够帮助我们探究庞大、杂乱无序的数据背后隐藏的事实规律。描述数据集有三个维度,包括数据的集中趋势描述,数据的离散程度描述和数据的分布形态描述 。

在之前的两篇文章中已经分享了集中趋势描述及离散程度描述这两个维度,还没有看过或者有些遗忘的朋友可以戳以下链接进行回顾:看穿数据,看透事实——集中趋势描述看穿数据,看透事实——离散程度描述

接下来是最后一个维度,也是能够更直观的了解数据集整体情况的维度:数据的分布形态描述。

一、分布形态描述

1.偏度系数 Skewness:是描述变量取值分布形态对称性的统计量。


看穿数据,看透事实——分布形态描述


解读:

当分布是对称的,正负总偏差相等,偏差值为0;当分布式不对称分布时,正负总偏差不相等,偏差值大于0或小于0。当偏差值大于0时,表示正偏差值偏大,为正偏或右偏,长尾在右边;当偏差值小于0时,表示负偏差值偏大,为负偏或左偏,长尾在左边。偏差绝对值表示数据分布形态的偏斜程度,当偏差绝对值越大时,数据分布形态的偏斜程度越大,反之越小。


2.峰度系数 Coefficient Of Kurtosis :是用来反映频数分布曲线顶端尖峭或扁平程度的指标。


看穿数据,看透事实——分布形态描述



解读:

当数据分布与标准正态分布的陡缓程度相同时,峰度值等于0。峰度值大于0表示数据分布形态比标准正态分布更陡,为尖峰分布;峰度值小于0表示数据分布形态比标准正态分布更缓,为平缓分布(低峰分布)



分布特征描述这个维度较为简单,掌握了偏度和峰度这两个指标及其代表的含义,可以帮助我们对数据集有更加全局性的判断。了解完分布特征描述,至此描述数据集的三个维度已经全部分享完了,下阶段仍是统计知识的分享 ,敬请期待!

本原创首发于公众号:数据分析鱼,欢迎围观!


分享到:


相關文章: