05.23 「干货课程」Pandas入门课程系列4「强烈推荐」_技术 _ 頭條網

系列回顾

玩转Pandas系列已经连续推送3篇，尽量贴近Pandas的本质原理，结合工作实践，按照使用Pandas的逻辑步骤，系统地并结合实例推送Pandas的主要常用功能，已经推送的3篇。

以上3篇总结了Pandas主要的两个数据结构：Series(一维)和DataFrame(二维)，系统地介绍了创建，索引，增删改查Series, DataFrame等常用操作接口，总结了Series如何装载到DataFrame中，以及一个实际应用多个DataFrame的实战项目例子。

值得推荐的是，Pandas广泛应用在金融，统计，社会科学，和许多工程领域。Pandas和R语言直接无缝衔接。Pandas是基于Numpy(Numpy基于Python)基础开发，因此能和带有第三方库的科学计算环境很好地进行集成。

Pandas核心应用场景

按照使用逻辑，盘点Pandas的主要可以做的事情：

能将Python, Numpy的数据结构灵活地转换为Pandas的DataFrame结构DataFrame可以方便地实现增加和删除行、列智能地带标签的切片，好玩的索引提取大数据集的子集自动数据对齐，完全可以不考虑行、列标签，直接append list.灵活地对数据集Reshape和按照不同轴变化数据的Pivot操作。强大的I/O操作。提供接口： CSV and delimited, Excel files, databases, and saving / loading data from the ultrafast HDF5 format通俗易懂地在DataFrame结构上实现merge和join操作(merge操作)善于处理missing data，如NaN, non-floating数据。强大而灵活的分组功能，在数据集上实现分-应用-合的操作，达到整合和改变数据形状的目的。时间序列的处理功能，生成 data range，移动的时间窗，时间移动和lagging等。

接下来，按照以上未涉及的思路陆续推送，欢迎补充和指正。

多Index层级结构

Pandas中什么是有层次的数据呢？简单来说，就是构造了一个有层次的Index实例，其他没什么不同。首先构造一个有层次的Index，如下：

#创建有层次的Index实例

index_name =['first','second']

lay_index = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],

['one', 'two', 'one', 'two', 'one', 'two', 'one', 'two']]

tuples = list(zip(*lay_index))

two_layers_index = pd.MultiIndex.from_tuples(tuples, names=index_name)

two_layers_index

有了Index实例，充填一个8行2列的数据values就行，如下所示：

res = np.array([list(np.random.randn(8)),list(np.random.randn(8))]).T # 8行2列

pd_h = pd.DataFrame(res, index=two_layers_index, columns = ['A','B'])

pd_h

得到数据如下，A, B 是列标签，first, second是Index实例的标签名称。

这块功能在实际使用中，暂时不常用，先不展开总结。

转化操作

拿到一个数据表后，有时需要改变数据表的形状，此时就要用到这块功能: reshaping, pivot, transpose, sort等功能。

4.1 pivot

pivot是指按照指定的Index和columns，values旋转原来的数据表。

#pivot

df = pd.DataFrame({ 'foo': ['one','one','one','two','two','two'],

'bar': ['A', 'B', 'C', 'A', 'B', 'C'],

'baz': [1, 2, 3, 4, 5, 6]})

数据显示如下，可以看到数据的index是默认的从0开始的整数索引，columns是[bar,baz,foo]，

ok，现在我想作如下转化，index设置为foo, columns设置为bar, values设置为baz列，

df.pivot(index='foo', columns='bar',values='baz')

转化后的结果如下显示：

此时这种转化，用肉眼观察，是比较合理的，但是有时候为了观察多个维度，我们可能需要大量的转化实验，比如，这样设置行、列、值

df.pivot(index='bar', columns='baz', values='foo')

得到的结果如下，看出这种转化出现比较多的None值，因为这种数据轴的设置导致的，但这是正常操作。

4.2 sort

Pandas的排序操作提供了2个主要的API，分别按照值排序和索引排序。值排序的接口：

DataFrame.sort_values(by, axis=0, ascending=True, inplace=False, kind='quicksort', na_position='last')

例子总结里面所有可能的排序细节问题，首先构造一个DataFrame实例，如下所示：

df = pd.DataFrame({'col1' : ['A', 'A', 'B', np.nan, 'D', 'C'], 'col2' : [2, 1, 9, 7, 7, 4], 'col3': [0, 1,np.nan,np.nan, 2, 3]})

按照col1和col3这两列的值排序结果如下：

sort_1_3 = df.sort_values(by=['col1', 'col3'])

sort_1_3

排序后的结果如下所示：

默认情况下，排序中等于NaN的值相应地位于后面，如果设置na_position='first'，才会将NaN值位于前面；排序默认不是就地排序，inplace=False；多列排序中，第一个参数是主排序字段，第二个参数是次排序字段，也就是说如果第一个主排序字段出现重复后，按照第二个字段排序，依此类推。

以上总结了DataFrame主要能做的事情，初步了解多层 Index是怎么回事，以及Pivot，Sort等操作接口。欢迎指正。

相關文章:

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

第一章 Spring Framework概述

opencv人工智能深度学习这样实现人脸的年龄检测

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

深入了解ProcessFunction的状态操作(Flink-1.10)

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪