用EXCEL做數據分析,從實戰中熟悉,更進一步

在我們要做數據分析之前,首先要了解數據分析有哪些步驟。

數據分析一般分為5個步驟:

  • 明確問題
  • 理解數據
  • 數據清洗
  • 數據分析或構建模型
  • 數據可視化

一切的數據分析工作都是為了解決問題,所以在做數據分析之前,我們首先要搞懂要處理分析什麼樣的問題;在採集或者收集到數據信息後,我們要理解數據分別是代表什麼信息;接著我們要進行數據清洗,一般我們拿到數據後,可能是雜亂無章的,很多髒數據或者重複數據,所以我們要給數據"洗白白";然後我們就可以用各種方法對數據進行分析了;在最後分析完成之後,我們就可以用數據可視化的方式,利用圖表的形式讓大家看懂數據。

EXCEL作為數據分析工作中最常用的軟件,是我們在入門數據分析首先要學的工具,今天我們就以EXCEL的使用為例,看看如何做到基礎的數據分析工作。


一、數據分析第1步:明確問題

假設我們手頭上有一份招聘網站的招聘數據,我們想要了解一些問題:

  • 在哪些城市找數據分析工作機會更大?
  • 數據分析師的薪資水平怎麼樣?
  • 不同的工作經驗,薪酬水平有怎樣的變化情況?


二、數據分析第2步:理解數據

我們在拿到收集數據的文件之後,需要養成良好的工作習慣,對原始數據文件進行備份,然後再在文檔上對數據進行理解、清晰、分析等工作。

用EXCEL做數據分析,從實戰中熟悉,更進一步


1.瞭解數據有什麼信息

我們打開數據文件,我們會看到會有很多的列明(字段),例如城市、公司名稱、職位福利、薪水等,而這些信息正是意味著我們可以通過這份數據可以讓我們瞭解到什麼情況,或者可以用來解決什麼問題。

用EXCEL做數據分析,從實戰中熟悉,更進一步

很多時候我們拿到一份EXCEL文檔,會發現很多個格子的信息都顯示不全,這種時候我們可以點擊任意一個信息,然後鍵盤CTR+A全選數據,然後點擊"開始"欄的自動換行。

用EXCEL做數據分析,從實戰中熟悉,更進一步

這時信息就顯示全了,那麼想要讓表格更加美觀一點呈現信息的話,我們可以點擊表格的左上角的小三角形,這時候會全選整個表格,接著再列號位置點擊右鍵(A/B/C/D……這種),然後點擊列寬,試著設置為15,這時表格會變寬。


用EXCEL做數據分析,從實戰中熟悉,更進一步


2.瞭解EXCEL的數據類型

EXCEL的數據類型主要分為三種類型,分別是字符串、數值、邏輯。

數字可以是兩種類型,一種是字符串類型,字符串類型的數字不能用於計算,一般在表格中默認向左對齊;而數值類型的數字則可以用於計算,一般在表格中默認向右對齊。


三、數據分析第3步:數據清洗

數據清洗佔用我們數據分析中大部分的時間,數據清洗相當於把數據改變我們喜歡的樣子、符合我們需求的樣子,為後續的分析工作做準備。

  • 數據清洗一般分為以下7個步驟:

1.選擇子集(選擇我們準備進行數據分析工作中感興趣或是需要的幾個列數據。)

2.列名重命名(把列名改為符合自己命名喜好的名字。)

3.刪除重複值(把重複的多餘數據進行刪除。)

4.缺失值處理(把缺失的數據進行刪除或是補全等方式的處理。)

5.一致化處理(對數據列沒有統一命名的值進行統一處理。)

6.數據排序(通過數據一定規律的排序便於發現價值信息。)

7.異常值處理(對數據異常的值進行處理。)


1.選擇子集

選擇子集主要是把對我們有用的信息留下,把對我們沒用的信息隱藏掉,方便對數據進行處理。例如,我們要分析工作機會、薪酬水平等問題,像"公司ID"這種數據對於我們來說沒什麼用,我們就可以在該列的列號上點擊右鍵,然後點擊隱藏就可以了,如果字段信息在一行上,那就在行號上點擊就可以了。

用EXCEL做數據分析,從實戰中熟悉,更進一步

如果想要把隱藏的數據展開,可以在"開始"欄中的格式中,點擊隱藏和取消隱藏,根據實際需要取消隱藏行或列。


2.列名重命名

在表格中,像"公司大小"這種,我習慣的表達方式是"公司規模",那麼我就會雙擊該格子,把文字改過來。


用EXCEL做數據分析,從實戰中熟悉,更進一步


3.刪除重複值

在招聘的表格中,有一項"職位ID",因為在發佈的職位中,每個職位都是有著唯一的一個ID號碼的,就像身份證一樣,如果出現重複的情況就意味著這個職位信息的數據重複了,我們需要進行刪除。

用EXCEL做數據分析,從實戰中熟悉,更進一步

點擊"數據"欄裡的"刪除重複值",然後勾選"數據包含標題",點擊取消全選,找到我們要用來識別數據是否重複的"職位ID",點確認,然後系統就進行自動刪除處理了,方便快捷。

用EXCEL做數據分析,從實戰中熟悉,更進一步


4.缺失值處理

在打開數據表格後,我們有時候可能會發現,有的數據格子是空白的,那麼我們怎麼找出這些缺失值呢?

  • 用對比的方法,找出缺失數量。

我們可以通過每一列的數據總數進行查看,然後用簡單的減法就可以算出缺失數量。

用EXCEL做數據分析,從實戰中熟悉,更進一步


"城市"列缺失數量="公司簡稱"數量-"城市"數量,即5032-5030=2。

  • 數據缺失的情況下,我們可以這麼處理:

如果數據比較少,我們就可以嘗試進行補全,例如上圖空白處,我們可以根據公司所在區域來核對公司是在哪個城市。

  • 刪除缺失數據。
  • 用平均值代替缺失值。
  • 用統計模型計算出數值進行替代。


5.一致化處理

(1)分割

有時候我們的數據信息裡,一個格子裡可能會有幾個信息,那麼這時候,我們就可以用一致化處理的方式把他們分割開來。

例如,公司所屬領域,會涉及幾個領域,並且用逗號分割開來。我們點擊"數據"欄裡的"分列",然後設置為根據分割符號進行分割,處理過後我們就會發現原來的那一列旁邊自動生成了分割後的數據。但是我們在處理之前要把那一列的數據複製到表格最後處理,避免分割後的數據覆蓋掉旁邊的數據列。

用EXCEL做數據分析,從實戰中熟悉,更進一步


(2)函數處理:

在一致化處理,我們還可以通過函數來對數據進行一致化處理,函數其實就是規則、公式,只要設定好,EXCEL的系統就會自動幫你處理信息,這樣就不需要我們一個個選項去算、去選那麼麻煩。

EXCEL裡的函數非常豐富,函數的應用對於我們來說真是可以大大提高效率,那些成千上萬的數據,要是一個個處理,那簡直是苦力工作,但是函數卻能讓我們一件生成。

接下來我將用實戰案例來展示函數的相關運用。


四、電商嬰兒產品數據試手

通過天池平臺,我手上獲得了兩份表,一份是購買產品信息表,一份是嬰兒信息表。

1.明確問題

根據昨天的初步構想,準備主要分析每個季度哪些嬰兒商品賣得最好的有哪些?並在這個過程中,附帶一些其他一些探索性的分析。


2.理解數據

拿到表後,先看一下表內的各個列名都有些什麼信息,好讓我們知道我們可以拿這些數據信息分析什麼。


3.數據清洗

(1)選擇子集

由於商品屬性有很多參數,而且每個商品不盡相同,對於我這次分析作用不大,因此先進行隱藏。

(2)列名重命名

首先我將表格中的字段休息修改為我習慣的表達方式,並且調整列寬和換行,讓表格看起順眼一些。

用EXCEL做數據分析,從實戰中熟悉,更進一步


(3)刪除重複值

用EXCEL做數據分析,從實戰中熟悉,更進一步

在嬰兒信息表裡,因為每個嬰兒的ID都是唯一的,所以我們可以通過刪除重複值,直接識別和刪除,點擊過後發現數據並無重複。

(4)缺失值處理

通過列的信息量計數得出,除了商品屬性一列為29828行信息外,其餘列均為29972,即商品屬性列缺失了144個數據信息。但由於商品屬性對於此次的分析無影響作用,所以可以後續再根據商品編號補充回對應的商品屬性信息。

(5)一致化處理

  • 日期處理

兩個表格裡的日期都是全數字的,不方便查閱,因此我們要通過分列的技巧,把日期全都改為標準日期形式,並通過設置單元格格式讓日期進一步統一。

用EXCEL做數據分析,從實戰中熟悉,更進一步


  • 嬰兒性別處理

因為嬰兒表中,都是用0來代表女性,1代表男性,2代表未知性別,為了方便識別,我將其通過替換改為中文表達方式。

用EXCEL做數據分析,從實戰中熟悉,更進一步


4.數據分析

接下來,我通過數據透視表分析每個季度哪些嬰兒商品賣得最好的有哪些?

用EXCEL做數據分析,從實戰中熟悉,更進一步

通過數據顯示發現,類目編號為28的商品在11個季度中,有9個季度都是賣得最好的。

用EXCEL做數據分析,從實戰中熟悉,更進一步

然後我們通過每個季度的總銷量進行排序,發現季度的銷量每年呈現第四季度>第三季度>第二季度>第一季度的規律。


接著,我試著用VLOOKUP函數進行多表關聯,把收集到嬰兒信息的用戶ID跟購買用戶ID進行匹配,識別出購買日期和購買數量。

用EXCEL做數據分析,從實戰中熟悉,更進一步

然後通過描述性統計分析發現,用戶評價購買商品的數量為1.6個,而中位數和眾數都為1,代表大部分用戶購買數量都是1份。但是從最大值和最小值差距比較大可以看出,這份數據可能有異常,我們需要進一核查信息。

用EXCEL做數據分析,從實戰中熟悉,更進一步

通過數據透視表我們可以發現,為女性嬰兒購買產品的父母會多一點,但是實際上男女嬰兒需求比例是差不多的。

用EXCEL做數據分析,從實戰中熟悉,更進一步


  • 結語

通過分析策略的學習和軟件的學習之後,因為都不夠熟悉,導致在實戰使用起來會比較生澀,或者是考慮因素不夠周全,運用方式不夠全面,需要多加練習,逐步進階。


分享到:


相關文章: