大话Excel数据整理四式心法

大话Excel数据整理四式心法

在Excel操作上, 很多人注重的是多掌握函数,最好是能会VBA,这样可以在众人面装大神。但Excel是数据处理工具,我们第一步必须是对数据进行清洗, 去除不合规格的脏数据, 将数据调整成整齐合理的格式. 然后添适宜的数据辅助列, 补充数据维度. 最后是将处理好的数据以美观的图/表形式向他人展示。这才是我们最终的目的。

Excel的入门法门是数据整理. 这个是最基本的柱础,腰马合一,力从地起,但很不幸的,大多号称精通Excel的大侠们尚未具备这个意识。

原始数据一般都长成这样:

大话Excel数据整理四式心法

这是个糟糕的数据样本,但是还不是最糟的,从不同的人手里收集原始数据的时候,这种情况特别常见的。

大话Excel数据整理四式心法

好的数据格式应该是:

大话Excel数据整理四式心法

世间任何功夫都是由浅入深,循序渐进,注重心法。

想要精通Excel也是这个道理,必须由浅入深、循序渐进,而不是一蹴而就,数据整理就是其中最基本最重要的入门招式,不过入门招式,往往也意味着很辛苦,别无捷径,唯手熟心细尔。

大话Excel数据整理四式心法

Excel数据整理第一式:
清洗

吾宗神秀大师有云:身是菩提树,心如明镜台,时时勤拂拭,莫使有尘埃。

心需拂拭, 同理, 数需清洗. 使其平熨齐整, 利于后续使用。

清洗的对象,简称脏数据。一般有如下几种情况:

1、同名异物:例如公司里面有两个李明, 如果不加区别地导入数据并进行合并统计, 可能就会出问题。

2、同物异名:例如性别, 有的人写成男女, 有的人写成M/F, 有的人干脆写成0/1。

3、单位错乱::例如金额, 人民币和美元一旦混同, 那绝对是一场灾难。

4、规格不合:例如文本数字和纯数字

5、格式混乱:最典型的就是日期

例如:8/6/18, 根本说不清楚是18年8月6日, 还是18年6月8日, 抑或是08年6月18日, 因为美式日期, 英式日期, 中式日期各自都不相同。

大话Excel数据整理四式心法

数据整理第二式规制

做数据之前, 先要和其他人协商好, 各个数据都是什么格式, 不同数据表之间的格式是否要统一, 之间是否有依赖关系. 如果数据不满足依赖关系如何处理。

例如先约定好, 性别一律写成"男/女"。如果写成M/F的, 那么M就当成男性, F就当成女性来处理(使用替换, 或者使用中间映射表) 写成Nan/Ny的, 直接当脏数据抛弃掉。

大话Excel数据整理四式心法

数据整理第三式: 分组

在数据预处理中, 分组是一个很重要的手段, 例如各位大侠要面对的是本公司的工资表, 想看看整体是否失衡, 可以将资历分为中低高三组(日企), 对应人员的工资进行汇总; 但具体资历分层的节点的把握, 则需要小心, 必要时还需要反复尝试. 例如可分成

a. 工作1年以下,

b. 工作1年-3年

c. 工作3年-5年

d. 工作5年以上

跑出来一看, wow, 公司是大学生创业基金支援的, 全部员工都是工作1年以下......

这个时候就得按更细粒度的月来进行划分了。

大话Excel数据整理四式心法

数据整理第四式:聚类

聚类则更灵活, 例如最早登记报册的只有员工的姓名工号, 乱糟糟一大把, 业余活动组织不起来怎么办?

这个时候找IT要一下各人上班的时候的浏览网页, 从网页记录推算一下各人爱好, 然后按照爱好进行聚类, 变成篮球俱乐部, 羽毛球娱乐部, DOTA俱乐部.....这以后的工作就好开展了。

以上Excel整理数据的四式心法:强调意识, 不限于方法。


分享到:


相關文章: