python数据分析实战:pandas分组聚合-离散化

python数据分析实战:pandas分组聚合-离散化

导读:本文介绍离散化(分位数)在分组聚合中的作用,约370字,正常读完需要2~3分钟。


一文的拓展2中求12小时累计降水还可以通过离散化函数来解决。

pandas.cut()函数可以将连续变量(continuous variable )转变为分类变量(categorical variable)其具体实现可以分为以下两种方法:

1. 指定间隔

通过bins划分每个分类变量的范围,指定include_lowest=True则表示第一个区别包括最左端的数,其他区别均为左开右闭(x1,x2]。

python数据分析实战:pandas分组聚合-离散化

同时我们还可以指定label变量,用于指定返回变量的标签

python数据分析实战:pandas分组聚合-离散化

2. 等宽度分箱

将bins替换为一个整数N,程序会向最大值和最小值两侧分别扩展1%,然后将整个范围切割为N等份。

python数据分析实战:pandas分组聚合-离散化

同样,此时也可以手动指定返回label=['0-11','12-23']。

最后,求12小时累计降水可以写成:

python数据分析实战:pandas分组聚合-离散化

python数据分析实战:pandas分组聚合-离散化


分享到:


相關文章: