大話Excel數據整理四式心法

大話Excel數據整理四式心法

在Excel操作上, 很多人注重的是多掌握函數,最好是能會VBA,這樣可以在眾人面裝大神。但Excel是數據處理工具,我們第一步必須是對數據進行清洗, 去除不合規格的髒數據, 將數據調整成整齊合理的格式. 然後添適宜的數據輔助列, 補充數據維度. 最後是將處理好的數據以美觀的圖/表形式向他人展示。這才是我們最終的目的。

Excel的入門法門是數據整理. 這個是最基本的柱礎,腰馬合一,力從地起,但很不幸的,大多號稱精通Excel的大俠們尚未具備這個意識。

原始數據一般都長成這樣:

大話Excel數據整理四式心法

這是個糟糕的數據樣本,但是還不是最糟的,從不同的人手裡收集原始數據的時候,這種情況特別常見的。

大話Excel數據整理四式心法

好的數據格式應該是:

大話Excel數據整理四式心法

世間任何功夫都是由淺入深,循序漸進,注重心法。

想要精通Excel也是這個道理,必須由淺入深、循序漸進,而不是一蹴而就,數據整理就是其中最基本最重要的入門招式,不過入門招式,往往也意味著很辛苦,別無捷徑,唯手熟心細爾。

大話Excel數據整理四式心法

Excel數據整理第一式:
清洗

吾宗神秀大師有云:身是菩提樹,心如明鏡臺,時時勤拂拭,莫使有塵埃。

心需拂拭, 同理, 數需清洗. 使其平熨齊整, 利於後續使用。

清洗的對象,簡稱髒數據。一般有如下幾種情況:

1、同名異物:例如公司裡面有兩個李明, 如果不加區別地導入數據並進行合併統計, 可能就會出問題。

2、同物異名:例如性別, 有的人寫成男女, 有的人寫成M/F, 有的人乾脆寫成0/1。

3、單位錯亂::例如金額, 人民幣和美元一旦混同, 那絕對是一場災難。

4、規格不合:例如文本數字和純數字

5、格式混亂:最典型的就是日期

例如:8/6/18, 根本說不清楚是18年8月6日, 還是18年6月8日, 抑或是08年6月18日, 因為美式日期, 英式日期, 中式日期各自都不相同。

大話Excel數據整理四式心法

數據整理第二式規制

做數據之前, 先要和其他人協商好, 各個數據都是什麼格式, 不同數據表之間的格式是否要統一, 之間是否有依賴關係. 如果數據不滿足依賴關係如何處理。

例如先約定好, 性別一律寫成"男/女"。如果寫成M/F的, 那麼M就當成男性, F就當成女性來處理(使用替換, 或者使用中間映射表) 寫成Nan/Ny的, 直接當髒數據拋棄掉。

大話Excel數據整理四式心法

數據整理第三式: 分組

在數據預處理中, 分組是一個很重要的手段, 例如各位大俠要面對的是本公司的工資表, 想看看整體是否失衡, 可以將資歷分為中低高三組(日企), 對應人員的工資進行彙總; 但具體資歷分層的節點的把握, 則需要小心, 必要時還需要反覆嘗試. 例如可分成

a. 工作1年以下,

b. 工作1年-3年

c. 工作3年-5年

d. 工作5年以上

跑出來一看, wow, 公司是大學生創業基金支援的, 全部員工都是工作1年以下......

這個時候就得按更細粒度的月來進行劃分了。

大話Excel數據整理四式心法

數據整理第四式:聚類

聚類則更靈活, 例如最早登記報冊的只有員工的姓名工號, 亂糟糟一大把, 業餘活動組織不起來怎麼辦?

這個時候找IT要一下各人上班的時候的瀏覽網頁, 從網頁記錄推算一下各人愛好, 然後按照愛好進行聚類, 變成籃球俱樂部, 羽毛球娛樂部, DOTA俱樂部.....這以後的工作就好開展了。

以上Excel整理數據的四式心法:強調意識, 不限於方法。


分享到:


相關文章: