散点图与动态4象限散点图(含视频教程)

散点图是一种用于展示两个(或多个)变量在一个直角坐标系的平面上分布状况的一组数据的图形。

数据显示为一组点,其一般性的外观通常如下:

散点图与动态4象限散点图(含视频教程)

散点图一般用来做相关性分析,直观地显示变量之间的相关强度、相关方向以及是否存在异常值。

当两个或多个变量之间存在线性相关时,可以根据其两个变量数据分布的最佳拟合线和相关系数,通过一个变量去预测合理数据范围内的另一个变量的值。

另外,相关性是变量之间的数学关系,两个变量间存在相关关系并不意味着一个变量必定会影响另一个变量,也不意味着两者间存在因果关系。

所以,当一副散点图放在我们面前,即使数据点完美的分布在一条直线上,我们也只能称之为线性相关,但是不能据此判断出有实际关系,更不能据此推断该两个变量间有因果关系。

了解以上基础知识,有助于更好的阅读和理解散点图,也有助于正确的使用散点图。

统计学知识是数据可视化知识体系的重要组成部分。即使是日常工作中的数据可视化,了解一点基本的统计学知识,也是很有必要的。我所知道的比较浅显的统计学入门教材是head first系列的《深入浅出统计学》,感兴趣的读者朋友可以找来看看。

实际应用中,探寻一个变量变化时,另一个变量是如何变化的,比如入室盗窃率高的城市暴力犯罪率是否也高?房价和住房建筑面积之间的关系是怎样的?每天喝可乐的人是否会更胖?等。

我手头恰好有一份美国8659个城镇2006-2008各类别犯罪的统计数据,为了寻找上面第一个问题的答案,我以入室盗窃和暴力犯罪的案件数作为两个变量,画了如下散点图:

散点图与动态4象限散点图(含视频教程)

一共8659个数据点,一个数据点代表一个城市,x值为2007年的入室盗窃案件数,y值为当年暴力犯罪的案件数,在图形化之前,你可能很难观察出两者间的相关关系,但是,通过散点图的展现,答案就很明显了:两者呈现高度正相关,也就是一个变量的值变大时,另一个变量的数值也相应上升。

有时候,需要分别对比一个变量和多个变量间的相关关系,就可以作一组散点图来进行对比,如下图:

散点图与动态4象限散点图(含视频教程)

或者:

散点图与动态4象限散点图(含视频教程)

在实际工作中,这种成组的、用来分别表示一个变量和多个变量之间相关性的散点图,可以有很多的应用场景,比如,我们知道一个公司的产品销量这个固定的变量,分别和价格水平、折扣、服务满意度、产品耐用性、宏观经济形势等变量相关,那么,在某种条件或某个时段内,和哪一个变量相关性最强,和哪一个变量相关性最弱,就可以据此辅助决策工作的重心应该朝向哪个方面,或者发现导致销量疲软的主要因素是哪些。

图形中间的直线叫做最佳拟合线(line of best fit),它和相关系数一起,用来表示相关性的强度和方向,本篇仅浅谈一下,后面篇章作深入讲解。

有时候需要对散点图的数据对象做一个细分类别的处理,以观察到各类别的数据点分布情况,除了使用上面的多组散点图的样式,也可以用不同的标记点颜色来区分:

散点图与动态4象限散点图(含视频教程)

散点图与动态4象限散点图(含视频教程)

以上的细分类别是根据数据对象的地理分布,或者说是数据对象的一种属性来划分。有时候需要对比数据对象的多个时间阶段或时间点的数据分布,也可以采用类似的方式处理:

散点图与动态4象限散点图(含视频教程)

对于不同数值区间的数据呈现,也可以用这种分阶段散点图来呈现:

散点图与动态4象限散点图(含视频教程)

以上例图呈现的都是两个变量,当一个图形需要展现三个变量的相关性,则需要引入更多的视觉暗示,比如颜色和面积:

散点图与动态4象限散点图(含视频教程)

散点图与动态4象限散点图(含视频教程)

散点图与动态4象限散点图(含视频教程)

散点图作为体现图表发掘和探索功能的一种典型图表,功能很强大,应用很广泛,样式也非常多样化,是很值得仔细研究和学习的一大类图表类型。

下面介绍动态4象限散点图的做法,用超级表及切片器作为辅助工具来完成,制作的过程请见如下视频:

获取视频信息失败

获取本视频的范例文件,请后台私信留言,“动态散点图”

我是作者苏有熊,谢谢观看,再见。


分享到:


相關文章: