城市要素庫的人才招聘分析系統的指數算法

GooSeeker研發團隊在城市要素庫;基礎上製作了一個人才招聘分析專題系統,基於互聯網上公開的公司招聘信息做的分析系統,鏈接:http://www.gooseeker.com/land/city.html。我們希望從招聘需求的角度來對下面幾點進行探索。

●分析全國不同城市之間的人才/行業結構佈局差異;

●觀察全國總體的招聘需求情況,跟蹤城市的招聘變化趨勢;

●分析城市的行業結構變化,預測朝陽行業;

城市要素庫的人才招聘分析系統的指數算法

為了能直觀地對城市、行業之間進行比較,我們設計了招聘指數作為衡量大小的標準。招聘指數就像股票指數那樣,就是一個計算後的數值,在這裡就是用來說明一個城市、一個行業的招聘需求大小。

然而必須面對一個問題:這些數據是從招聘網站的公開的公司招聘信息中採集出來的,比如,58同城、智聯招聘、51job、拉勾網等,每個網站有自己的特點,就會分別有不同的行業聚集,很顯然,58同城上的招聘與拉勾網上的招聘公司所處的行業就是涇渭分明的。那麼,是否存在一個指數計算方法,能夠濾除掉行業偏向?

我們採用的這個算法從一定程度上能夠濾除這種偏向,在這裡把這個算法列出來,希望多跟大家交流,如果有其他意見或者想法的,都可以給我們留言。

為了能直觀地對城市、行業之間進行比較,我們設計了招聘指數作為衡量大小的標準。招聘指數就像股票指數那樣,就是一個計算後的數值,在這裡就是用來說明一個城市、一個行業的招聘需求大小。

然而必須面對一個問題:這些數據是從招聘網站的公開的公司招聘信息中採集出來的,比如,58同城、智聯招聘、51job、拉勾網等,每個網站有自己的特點,就會分別有不同的行業聚集,很顯然,58同城上的招聘與拉勾網上的招聘公司所處的行業就是涇渭分明的。那麼,是否存在一個指數計算方法,能夠濾除掉行業偏向?

我們採用的這個算法從一定程度上能夠濾除這種偏向,在這裡把這個算法列出來,希望多跟大家交流,如果有其他意見或者想法的,都可以給我們留言。

1、數據來源

2、數據清洗

公司和招聘信息經過清洗整理後存入城市要素庫系統,這是一個數據立方體引擎,具體介紹參看《城市要素庫時空分析系統介紹》,在這個系統中,按照城市和行業兩個維度交叉查詢得到查詢結果數據,對數據做清洗處理,包括去重、過濾等等,這裡就不細說了,下面我們將以{城市-行業}代表交叉查詢得到的數據

3、招聘指數計算

以{城市-行業}交叉查詢得到的招聘信息,依次算出各個城市下各個行業的招聘信息總數,再以全國-行業為單位,算出全國各個行業的招聘信息總數量,然後就算出各個城市-行業的招聘指數,計算如下:

城市某行業的招聘總數 = 使用{城市-行業}交叉查詢得到的招聘信息條數

全國某行業的招聘總數 = 所有“城市某行業的招聘總數”之和

城市某行業的招聘指數 =(城市某行業的招聘總數 / 全國某行業的招聘總數)*100000

補充一點,這裡乘以100000,是為了把小數轉換為整數,可以一眼看出大小。

4、做個排行榜

城市要素庫的人才招聘分析系統的指數算法

基於上一章定義的計算方法,為每個城市的每個行業計算招聘指數,用這個指數做個排行榜,就能看出在某個行業上各城市的招聘需求差異,可以把平均薪酬也列上,對照一下觀察,期望有所發現。也可以選擇城市級別,只看一線城市或二線、三線以下城市的排行榜,比較同級別城市的行業招聘需求大小。

5、展望

綜合所有的網絡招聘平臺的行業分類,得到40多個行業,一個個行業拿出來看排行榜,其實難於解答文章開篇提出的問題,我們想得到城市的人才結構、產業群的概貌和演變,需要一種更加綜合的觀察。後續的篇章我們將陸續提出一下數據分析和可視化的方案,也希望各位讀者能提出一些好建議。

6、城市要素庫介紹和數據下載方法

城市要素庫是一個數據共享平臺,上面匯聚了房地產、招聘、生活娛樂、政府開放數據、城市部件、環境、氣象等多個領域的數據集,這些數據持續更新,最難能可貴的是整理後的數據,可以直接用來做量化運算,這不僅僅是一個簡單的數據下載平臺,更重要的是一個數據探索平臺,可以利用數據立方體的多維度搜索技術,發現數據特徵,找到研究方向。

城市要素庫的人才招聘分析系統的指數算法


分享到:


相關文章: