使用Python爬取網絡數據並使用SSAS進行數據分析

主要內容

使用Python分別爬取百度搜索頁面結果和智聯招聘的6大類職業信息,數據主要使用SQLServer SSAS進行分析,並有少量的使用Python分析結果。

對於百度搜索的數據和智聯招聘的頁面數據是截然不同的方式,百度主要是動態的生成數據而在智聯招聘上基本是靜態的數據,所以這兩個是具有一定的代表性的。

對於展示主要使用Excel,Excel作為SQLServer 數據分析中重要角色,易於操作使用。對於數據只有圖形化後,就變的極有吸引力,所以本文檔也主要是分析圖表進行說明。

l百度搜索頁面數據抓取

百度搜索頁面數據動態生成,且在抓取過程中需要對廣告推廣項進行排除。對於抓取的數據為,每個搜索項的說明數據及所在搜索頁面中的位置,搜索的數據單元項如下

使用Python爬取網絡數據並使用SSAS進行數據分析

將抓取到數據,構成文本文件,後使用Python的pycloudtag模塊和jieba分詞模塊,進行關鍵字統計,製作標籤雲,效果如下:

使用Python爬取網絡數據並使用SSAS進行數據分析

對於提取到的出現頻率較高的關鍵詞有:

統計項 高頻

------------------------------------------------------------------------------------------------------------------

地區 北京,深圳,杭州,武漢等

技術 Java,Php,Linux,Html5等

機構 智聯,達內,青鳥,58,52CTO等

l智聯招聘完整信息抓取

對於招聘網站的數據,以靜態數據為主,並且結構良好,所以非常適合爬蟲進行爬取,本次爬取了7000多個頁面的數據,並存儲在數據庫22萬條數據。

爬取的內容為6大類的職業信息: IT運維;IT質量管理;互聯網開發;軟件;系統集成;運營管理,其中可分為118個具體職業,樣例數據如下:

使用Python爬取網絡數據並使用SSAS進行數據分析

而具體的抽取數據的數據項,包含15個數據項,數據樣例如下:

使用Python爬取網絡數據並使用SSAS進行數據分析

通過抓取的數據構建SSAS多維數據集進行數據分析,對於構造的多維數據模型如下:

度量值為:工資上下限 ;維度有5個為:城市,工種類型,企業,任職要求,時間維度

使用Python爬取網絡數據並使用SSAS進行數據分析

前期數據情況分析結果

l使用事件SSIS事件探測任務

通過SSIS“數據事件探查任務”組件進行對數據構成進行初步分析,這裡列舉一些具有一些代表性的分析數據: 工作地址;企業規模;企業類型;招聘要求 的分析結果(針對IT運維;IT質量管理;互聯網開發;軟件;系統集成;運營管理6大類的分析)

工作地點:排名前四位的北 上 深 廣 ,即也反應這四地需求量最大

使用Python爬取網絡數據並使用SSAS進行數據分析

公司規模統計 ,公司人數為 100-499的最多

使用Python爬取網絡數據並使用SSAS進行數據分析

多維數據集分析結果

在構建好多維數據集後,即可進行使用excel進行分析。通過Excel連接到多維數據集後,進行簡易的操作,達到數據圖表聯動,數據鑽取,實現多維度結合分析,效果圖如下

各不同工作類型間最低工資和最高工資的對比

使用Python爬取網絡數據並使用SSAS進行數據分析

使用Python爬取網絡數據並使用SSAS進行數據分析

多維度篩選分析

使用Python爬取網絡數據並使用SSAS進行數據分析

在Excel中連接多維數據集,進行數據挖掘

首先需要有一臺SSAS服務器,在Excel中按照了數據挖掘插件。通過在SSAS數據挖掘功能,進行對在Excel中進行數據展示

成功安裝插件後,如下:

使用Python爬取網絡數據並使用SSAS進行數據分析

本文對使用python結合SSAS的數據分析挖掘先到一段落,以後會詳解對於挖掘方面的操作


分享到:


相關文章: