除了网络爬虫,还有哪些方法可以采集数据?

每日一发小视频


这里介绍2个免费的爬虫工具—Excel和八爪鱼,不需要写任何代码,就能实现对网络数据的爬取,下面我简单介绍一下这2个工具是如何爬取网络数据的,主要内容如下:

1.Excel爬取数据:Excel这个办公工具大部分人都应该听说过,日常的表格制作、数据统计,经常会用到,但是说起利用Excel爬取网络数据,这个使用的人应该不多,下面我简单介绍一下Excel是如何爬取数据的,主要步骤如下,这里以office2016为例:

  • 这里以抓取http://www.pm25.in/rank上的pm2.5数据为例,如下:

  • 首先,新建一个Excel表格,如下,依次点击“数据”->“自网站”,如下:

  • 接着在弹出的窗口中输入要爬取的网站链接地址,点击“跳转”,就会自动跳转到对应页面,接着点击“导入”,就会自动导入网页数据,如下:

成功导入后的数据如下,也就是我们需要爬取的网络数据:

这里也可以设置定时刷新的频率,定时刷新数据,如下,点击“属性”,就会弹出如下对话框,直接设置刷新频率就行:

2.八爪鱼爬取数据:这是一个免费的网络采集工具,不需要写任何代码,完全可视化操作,使用简单,文档丰富,用户只需简单的点击、选中,就能实现对绝大多数网站数据的爬取,下面我简单介绍一下这个工具的安装和使用:

  • 安装八爪鱼,这个直接到官方下载就成,免费,很快就能下载完成,完成后,直接双击安装就行:

  • 这里以爬取58上的招聘数据为例,如下:

  • 首先,打开八爪鱼软件,点击“任务”,输入网址,就会打开爬取的页面,如下:

  • 接着我们选中需要采集的条目,如下,随便点击一个就行:

  • 然后在右上角的“操作提示”中依次点击“选中子元素”->“选中全部”->“采集以下数据”->“保存并开始采集”,如下,程序就会自动开始采集数据:

成功采集后的数据如下,也就是我们需要爬取的数据:

这里我们也可以点击右下角的“导出数据”,导出为excel,csv,数据库等都行:

至此,我们就完成了利用excel和八爪鱼对网络数据的采集。总的来说,这2个工具使用起来都非常方便、快捷,只需要简单的点击按钮,就可以完成对网络数据的采集,不需要写任何代码,网上的教程也很丰富,感兴趣的可以尝试一下,当然,你也可以利用python等爬虫来完成对数据的采集,都可以,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言。


小小猿爱嘻嘻


采集数据主要有两个方向,一是自己编爬虫程序去采集,二是使用别人政府或者企业公司等公开的数据。

1. 编爬虫程序去采集数据(比较有针对性,比较适合我们的需求就是我想要什么数据就采集什么数据,可以使用Python爬虫去采集,不是很难。但有一点就像楼主说的一样,有点麻烦。)

2.使用公开的数据(针对性不强,可能公开的数据样本不符合我们的需求,这样就不利于工作的开展了,但特点就是方便)

由上面两种方式的解说,我们可以根据具体情况来选择不同的方式来采集数据。如果“公开的数据”比较符合我们的需求,就用“公开数据”做样本数据。如果“公开数据”很大程度不符合我们的需求,就“使用Python爬虫”去采集数据。

以上是我的看法,希望对你有帮助。


Python是一个时代


然后我再说说优缺点:Excel无法实现反反爬,网站稍微做下处理就失效了。八爪鱼和神箭手稍微傻瓜式一点,但是并也需要些基础知识(Re和xpath或者css选择器)。但是两个都价格不菲,也是最简单的(连招人都免了)


火星异端


除了一楼说的Excel和八爪鱼之外,还有WebScrape爬虫插件,也是可以帮助我们自助采集数据的,不用写代码


分享到:


相關文章: