只因在“人群”中多看了你一眼,我便爱上了这个数据分析工具

1)

自从小伙伴们看了我在各个平台写的文章,挺多人私信我说数据分析怎么入门?其实说来惭愧,我并不是专职做数据分析,虽然平时工作很多时候也会和数据打交道,但我的主要方向还是偏向于算法、工程应用,也许下一份工作会做数据分析吧,不过那是后话了。虽说如此,但我觉得,学会了一些相对底层的技术,其他方向那也不在话下,比如很多人都知道我爬取B站几百万的视频资源,

并且我写成了一篇文章,然后被三位百万级微博大v转载了(由于我后来改了公号名称为【暮秋君】,结果这波保底5000+的流量白白损失了,直接哭晕在厕所),就只是花了半天时间学习爬虫,然后一切就顺利的搞定了。这就像张无忌学会了九阳神功,其他武林绝学自然就能快速掌握并精通。

无论是python数据分析、python自动化办公,还是爬虫等,都离不开python的三大法宝:numpy、pandas、matplotlib。无论你用python做什么,这三兄弟都会一遍又一遍的出现在你面前,做数据分析pandas尤其重要。但是今天,我要给大家推荐另外一个工具库:pandas-profiling。简直不要太强大,一行代码生成数据报表,能大大提高你前期处理数据的效率。废话就不多说了,下面开始实战演习(小板凳要坐稳咯,哈哈)


2)

在做数据分析之前,我们都会希望能对这批数据有一个大致的理解,比如:有多少特征、每个特征的取值情况、异常数据、中位数、方差、特征之间的相关性等等。这个过程其实有一个专业的说法叫做:探索性数据分析(EDA)。这些分析可以调用pandas里面的info、head、describe等函数,但其实步骤也不少,并且有些统计量依然需要自己写代码才能得到。好了,下面就是今天的主角出场了。

3)

这里,我用kaggle上经典的泰坦尼克号的数据作为例子,能比较清楚的说明问题。

代码如下:

<code>import seaborn as sns
import pandas as pd
import pandas_profiling
import matplotlib.pyplot as plt/<code>

这里就是加载数据,seaborn库封装了加载泰坦尼克号的函数,不用再去网上下载了。下面我们看看前五行数据:

只因在“人群”中多看了你一眼,我便爱上了这个数据分析工具

数据的每一行都是乘客的基本信息,每一列是乘客的信息特征,具体代表的含义,看着英文基本都能猜出大概。什么,看不懂单词?那赶紧去背四级单词吧,不然等着跟我一样毕业了还没过四级吧哈哈!

最关键的一行代码来了:

<code>pandas_profiling.ProfileReport(data)/<code>

就这一行代码,可以生成一个亮瞎我眼的数据报表,来看看。


只因在“人群”中多看了你一眼,我便爱上了这个数据分析工具

是不是非常酷炫。最终的分析结果也是非常丰富的,下面我就详细的讲解一下这个报表里面的内容。

3.1


只因在“人群”中多看了你一眼,我便爱上了这个数据分析工具


这部分是整个数据的一个综述。

Dataset info:统计了变量个数、数据总条数、异常值的百分比、数据占用的内存大小、每条记录占用的平均内存大小。

Variables types:统计了每个变量的类型。

Warning:这是在提醒我们需要注意的零值、缺失值、重复行等特殊数据。


3.2


只因在“人群”中多看了你一眼,我便爱上了这个数据分析工具


这一部分是针对每个变量(特征),给出一些基本的信息,由于一共有15个变量,我就只介绍最具有代表性的age变量。

给出了变量的不同取值数量以及占的百分比、缺失值的数量及百分比、均值、最大最小值、无穷值。

statistics:绝大多数的数学统计量,均值、方差、协方差、中位数、求和、Q1值等等。

Histogram:频数分布直方图

Common value:频率分布表

Extreme value:给出了最大和最小的五个值的频率频数表


3.3

只因在“人群”中多看了你一眼,我便爱上了这个数据分析工具


这部分给出了皮尔逊相关系数矩阵,可以直观的看到每个变量之间的相关性。从而有利于后期的数据建模。


4)

只因在“人群”中多看了你一眼,我便爱上了这个数据分析工具


最后,再给出了前五行数据样例,更加直观的看到数据的真实样子。

整个报表就介绍完了,有木有感觉到功能非常强大啊,一键生成数据报表。并且这个工具对于常年和excel打交道的小伙伴来说,简直是福音啊,省去了很多中间繁杂的数据整理筛选过程。


分享到:


相關文章: