通過箱線圖看一線城市行業的招聘分布

GooSeeker研發團隊開發的城市要素庫分析系統中最大的數據集是招聘和房產房源,是一個重要的營商環境分析數據源。在 一文講解了一種指數算法,建立了量化分析的基礎,那篇文章也介紹了一個排行榜,觀察各城市在各種行業上的排行。然而,無法整體觀察一個城市的人才招聘需求的概貌。本文利用箱線圖對數據進行可視化展示,期望能做更直觀和更概括的觀察,比較城市之間的整體差異。當然,這種分析方法是否合適,大家可以討論。

最近整理了北京、上海、深圳這三座城市的各個行業所發佈的招聘數據,下面我們將一步步介紹計算工程,可以作為數據分析的學習和研討的參考材料。首先會介紹箱線圖的製作方法以及如何用箱線圖進行分析,然後再將這三座城市各行業的招聘指數製作成箱線圖,目的是為了利用箱線圖概括性地對比分析城市間的行業差異以及找出各城市存在哪些較強的行業等信息。

1、什麼是箱線圖

箱線圖又稱為盒須圖、盒式圖或箱形圖,是一種用作顯示一組數據分散情況的統計圖,利用一組數據中的最小值、第一四分位數、中位數、第三四分位數和最大值來描述數據,可以反映出數據是否具有有對稱性,數據的分散程度等信息,特別可以用於對幾個樣本數據的比較,在一批數據中,找出哪些數據點出類拔萃,哪些數據點表現不及一般,這些數據點放在同類其它群體中處於什麼位置,都可以通過比較各箱線圖的各個統計值看出。

2、怎樣計算四分位數

2.1、首先要明白什麼是分位數,分位數就是將總體的全部數據按從小到大的順序排列後,處於各等分位置的變量值,中位數是將全部數據分成相等的兩部分,那麼四分位數就是把全部數據分為四部份,每部分包括25%的數據,處在各分位點的數值就是四分位數。

2.2、四分位數有三個,第一個四分位數就是通常所說的四分位數,稱為下四分位數,第二個四分位數就是中位數,第三個四分位數稱為上四分位數,分別用Q1、Q2、Q3表示。

第一四分位數 (Q1),又稱“較小四分位數”,等於該樣本中所有數值由小到大排列後第25%的數字。

第二四分位數 (Q2),又稱“中位數”,等於該樣本中所有數值由小到大排列後第50%的數字。

第三四分位數 (Q3),又稱“較大四分位數”,等於該樣本中所有數值由小到大排列後第75%的數字。

第三四分位數與第一四分位數的差距又稱四分位距,用IQR表示。

計算四分位數首先要確定Q1、Q2、Q3的位置,計算四分位數位置的公式:

Q1的位置= (n+1) × 0.25

Q2的位置= (n+1) × 0.5

Q3的位置= (n+1) × 0.75

n表示數據總長度。

a) 、如果計算出的位置是整數,那麼處於計算出來的位置的數字就是四分位數。

例如 一組經過排序的數據為“5、7、15、35、39、40、41、42、45、47、48”,計算結果如下:

Q1的位置=(11+1)*0.25=3,那麼第一分位數就是數據從小到大排序後位置為3的數字,該位置的數字是15,則Q1=15。

Q2的位置=(11+1)*0.5=6,同理中位數就是位置為6的數字,該位置的數字是40,則Q2=40。

Q3的位置=(11+1)*0.75=9,位置為9的數字是45,則Q3=45。

b) 、如果計算出的位置不是整數,就需要用到插數法去計數四分位數的值。

例如 一組經過排序的數據為"12,15,17,19,20,23,25,28,30,33,34,35, 36, 37",則三個四分位數的位置分別為:

Q1所在的位置=(14+1)*0.25=3.75

Q2所在的位置=(14+1)*0.5=7.5

Q3所在的位置=(14+1)*0.75=11.25

那麼量中的第3.75項、第7.5項和第11.25項分別為下四分位數、中位數和上四分位數,即:

Q1=(1-0.75)×第三項+(1-0.25)×第四項=0.25×17+0.75×19=18.5

Q2=0.5×第七項+0.5×第八項=0.5×25+0.5×28=26.5

Q3=(1-0.25)×第十一項+(1-0.75)×第十二項=0.75×34+0.25×35=34.25

可以簡單理解為較小的數乘以(1-位置中的小數)加上較大的數乘以(位置中的小數)。

上面是人工算法,如果數據大的話會很麻煩,在Excel中有quatify()函數是用來計算四分位數的,可以利用該函數直接計算出四分位數,下面介紹一下用法:

語法:=quartile(array,quart)

array :為需要求得四分位數值的數組或數字型單元格區域

quart:決定返回哪一個四分位值

quart 取 0 ,就返回數組裡的最小值

quart 取 1 ,就返回數組裡的第一個四分位數(第 25 個百分點值)

quart 取 2, 就返回數組裡的中位數(第 50 個百分點值)

quart 取 3, 就返回數組裡的第三個四分位數(第 75 個百分點值)

quart 取 4 ,就返回數組裡的最大值

說明:如果數組為空,就會返回錯誤值 #NUM!

如果 quart 不為整數,將被截尾取整

如果 quart < 0 或 quart > 4,就會返回錯誤值 #NUM!

通過箱線圖看一線城市行業的招聘分佈

3、怎樣用Excel製作箱線圖

Excel2016版自帶箱線圖功能,2016版以下的Excel是沒有箱線圖功能的,需要升級到2016版。

製作箱線圖的步驟也非常簡單,只需要選中準備好的數據,再依次點擊插入-查看所有圖表-箱線圖進行插入,插入後就會自動生成相應的箱線圖表,完全不用自己去計算四分位數,非常方便。

通過箱線圖看一線城市行業的招聘分佈

上圖是從城市要素庫的人才招聘分析系統中導出的北京、深圳、上海這三座城市的所有行業招聘指數數據,行業的分類一共有53個,由於行業的分類太多,所以數據圖沒有截全。一個城市的每個行業都有一個數值,我們想看看整個城市的行業排行值的分佈情況。

利用2016版Exce將上圖數據製作成箱線圖,步驟如下圖:首先選中數據區域B2:D54,然後點擊工具欄的插入,選中查看所有圖表,再選擇箱形圖,點擊確定即可。

箱線圖製作步驟圖如下:

通過箱線圖看一線城市行業的招聘分佈

製作出的箱線圖效果如下圖:

通過箱線圖看一線城市行業的招聘分佈

4、箱線圖怎麼分析

箱線圖是用來觀察數據整體的分佈情況,可以通過以下幾個點來進行分析數據:

1. 箱體包含了大部分的正常數據,而異常數據會在箱體上邊界和下邊界之外,以實心點標出,可以通過觀察邊界外是否有實心點來判斷是否存在異常值

根據實際情況來處理異常值,分三種情況:

(a)異常值可能是一個被錯誤記錄的數據值,如果是這樣,就可以在進一步分析之前把它修正。

(b)異常值也可能是一個被錯誤包含在數據集總的值,如果是這樣,則可以把它刪除。

(c)異常值也可能是一個反常的數據值,它被正確記錄並且屬於數據集,這種情況下,它應該被保留。

2.根據中位線判斷數據的偏態強弱,中位數越偏離上下四分位數的中心位置,則代表分佈偏態性越強。中位數將全部數據分成上下兩側各50%,當中位數靠上的話,說明大多數的數據分佈在X軸靠右的位置上,曲線尾部向左側延伸,所以這時是左偏;同理,如果中位數靠下的話,說明大多數的數據分佈在X軸靠左的位置上,這時曲線尾部向右側延伸,所以是右偏。

3.看箱體的寬度判斷數據的離散程度,四分位數和中位數把數據分為相等的四等分,如果箱體寬度越窄,則表明 數據集中在25%到75%之間,反之則表明數據越離散。

根據以上幾個點來分析一下上面製作出來的箱線圖:

通過箱線圖看一線城市行業的招聘分佈

1、從箱體的寬度來看,上海整體的行業招聘指數最為集中,相對北京和深圳來說上海的招聘需求最平穩,側面說明上海大部分行業發展都比較成熟,而深圳的行業招聘指數最為離散,相對來說深圳各行業水平層次不齊。

2、從中位數的位置看,深圳和上海的中位線在箱體中的位置都靠上,而北京的中位線在箱體中的位置靠下方,說明深圳和上海大部分行業的招聘需求相對北京來說的是偏大的;而深圳的中位線的位置相對其他兩座城市的中位線來說位置最高,說明深圳的大部分行業招聘需求都要比北京和上海的大。

3、從異常值的點來看

  • 北京的三個異常值點對應的行業分別是:3197(政府/非盈利機構),3095(航天/航空),1974(信託/拍賣);

  • 深圳的一個異常值點對應的行業是:2681(電子技術/半導體/集成電路);

  • 上海的三個異常值點對應的行業分別是:2333(租賃服務),1437(儀器儀表/工業自動化),1352(信託/拍賣)。

表明北京的政府類行業發展最好,深圳在電子技術類行業的需求最大,而上海則偏向租賃服務類行業。


分享到:


相關文章: