python數據分析實戰:pandas分組聚合-離散化

python數據分析實戰:pandas分組聚合-離散化

導讀:本文介紹離散化(分位數)在分組聚合中的作用,約370字,正常讀完需要2~3分鐘。


一文的拓展2中求12小時累計降水還可以通過離散化函數來解決。

pandas.cut()函數可以將連續變量(continuous variable )轉變為分類變量(categorical variable)其具體實現可以分為以下兩種方法:

1. 指定間隔

通過bins劃分每個分類變量的範圍,指定include_lowest=True則表示第一個區別包括最左端的數,其他區別均為左開右閉(x1,x2]。

python數據分析實戰:pandas分組聚合-離散化

同時我們還可以指定label變量,用於指定返回變量的標籤

python數據分析實戰:pandas分組聚合-離散化

2. 等寬度分箱

將bins替換為一個整數N,程序會向最大值和最小值兩側分別擴展1%,然後將整個範圍切割為N等份。

python數據分析實戰:pandas分組聚合-離散化

同樣,此時也可以手動指定返回label=['0-11','12-23']。

最後,求12小時累計降水可以寫成:

python數據分析實戰:pandas分組聚合-離散化

python數據分析實戰:pandas分組聚合-離散化


分享到:


相關文章: