使用Python爬取网络数据并使用SSAS进行数据分析

主要内容

使用Python分别爬取百度搜索页面结果和智联招聘的6大类职业信息,数据主要使用SQLServer SSAS进行分析,并有少量的使用Python分析结果。

对于百度搜索的数据和智联招聘的页面数据是截然不同的方式,百度主要是动态的生成数据而在智联招聘上基本是静态的数据,所以这两个是具有一定的代表性的。

对于展示主要使用Excel,Excel作为SQLServer 数据分析中重要角色,易于操作使用。对于数据只有图形化后,就变的极有吸引力,所以本文档也主要是分析图表进行说明。

l百度搜索页面数据抓取

百度搜索页面数据动态生成,且在抓取过程中需要对广告推广项进行排除。对于抓取的数据为,每个搜索项的说明数据及所在搜索页面中的位置,搜索的数据单元项如下

使用Python爬取网络数据并使用SSAS进行数据分析

将抓取到数据,构成文本文件,后使用Python的pycloudtag模块和jieba分词模块,进行关键字统计,制作标签云,效果如下:

使用Python爬取网络数据并使用SSAS进行数据分析

对于提取到的出现频率较高的关键词有:

统计项 高频

------------------------------------------------------------------------------------------------------------------

地区 北京,深圳,杭州,武汉等

技术 Java,Php,Linux,Html5等

机构 智联,达内,青鸟,58,52CTO等

l智联招聘完整信息抓取

对于招聘网站的数据,以静态数据为主,并且结构良好,所以非常适合爬虫进行爬取,本次爬取了7000多个页面的数据,并存储在数据库22万条数据。

爬取的内容为6大类的职业信息: IT运维;IT质量管理;互联网开发;软件;系统集成;运营管理,其中可分为118个具体职业,样例数据如下:

使用Python爬取网络数据并使用SSAS进行数据分析

而具体的抽取数据的数据项,包含15个数据项,数据样例如下:

使用Python爬取网络数据并使用SSAS进行数据分析

通过抓取的数据构建SSAS多维数据集进行数据分析,对于构造的多维数据模型如下:

度量值为:工资上下限 ;维度有5个为:城市,工种类型,企业,任职要求,时间维度

使用Python爬取网络数据并使用SSAS进行数据分析

前期数据情况分析结果

l使用事件SSIS事件探测任务

通过SSIS“数据事件探查任务”组件进行对数据构成进行初步分析,这里列举一些具有一些代表性的分析数据: 工作地址;企业规模;企业类型;招聘要求 的分析结果(针对IT运维;IT质量管理;互联网开发;软件;系统集成;运营管理6大类的分析)

工作地点:排名前四位的北 上 深 广 ,即也反应这四地需求量最大

使用Python爬取网络数据并使用SSAS进行数据分析

公司规模统计 ,公司人数为 100-499的最多

使用Python爬取网络数据并使用SSAS进行数据分析

多维数据集分析结果

在构建好多维数据集后,即可进行使用excel进行分析。通过Excel连接到多维数据集后,进行简易的操作,达到数据图表联动,数据钻取,实现多维度结合分析,效果图如下

各不同工作类型间最低工资和最高工资的对比

使用Python爬取网络数据并使用SSAS进行数据分析

使用Python爬取网络数据并使用SSAS进行数据分析

多维度筛选分析

使用Python爬取网络数据并使用SSAS进行数据分析

在Excel中连接多维数据集,进行数据挖掘

首先需要有一台SSAS服务器,在Excel中按照了数据挖掘插件。通过在SSAS数据挖掘功能,进行对在Excel中进行数据展示

成功安装插件后,如下:

使用Python爬取网络数据并使用SSAS进行数据分析

本文对使用python结合SSAS的数据分析挖掘先到一段落,以后会详解对于挖掘方面的操作


分享到:


相關文章: