2018-11-30 02:09:44 佚名

一点发现

导语：大数据时代，爬虫技术的作用，超出很多人的想象。

爬虫是啥

可能有些小伙伴不太清楚爬虫技术，这边用比较简单的例子，跟各位小伙伴普及下，可能有些地方不够严谨，不过大概意思应该差不多。

我们最常接触的爬虫技术，大概是：百度的搜索引擎。

可能有些一看到“搜索引擎”这个词，就不想往下看。

那么我用更简单的方式来说明，“搜索引擎”就是基于爬虫技术。

你可以把这个玩意当做一只蜘蛛。

蜘蛛在一张蜘蛛网上面爬来爬去的，找寻它的食物，这只蜘蛛就是爬虫，这张网就是互联网。

我们每天，互联网都会诞生千万亿的信息，而这只蜘蛛就在互联网上，到处爬取信息，把对它有用的信息，收录起来。

当用户搜索的某个词的时候，蜘蛛就会把他搜集到信息，展示给各位小伙伴查看。

这个是最简单的搜索引擎！

不过期间包含非常多的核心算法，小编也不懂，不过上述应该能够让大家了解什么是爬虫技术。

应该有很多互联网工作的小伙伴都懂这个原理，他们口中会经常说“蜘蛛”，基本上就是指这个。

只不过有时候对象可能变成“谷歌”“搜搜”或者“360搜索”，但是基础原理都差不多。

爬虫的作用

那么爬虫技术有什么作用？

用简单粗暴的方式来回答，现在是大数据时代，数据就是王的时代，爬虫技术是获取数据快速而有效的方法。

比如你是一家生产女性bra的商家，你想想要生产销量非常好的bra，那么你想知道，我们天朝的妹纸们底哪些款式或者颜色。

甚至你还想细分到各个年龄层，17岁到25岁的妹纸喜欢什么款式，25岁到35岁的妹纸喜欢什么款式。

那么这个时候要怎么办？

最简单的方法，就是去看下各个电商平台上，售卖出去信息，而这些数据太过庞大，靠人工去统计，基本上是不可能。

这个时候爬虫技术就非常有用了！

比如w3cschool上100多个免费的爬虫实战中，就有一个上述的项目！

小伙伴如果对python爬虫技术有兴趣的话，可以私信w3cshool“爬虫”。

来免费试学《python零基础入门》和《python爬虫技术：完全掌握爬虫技术》的信息！

同时还搭载100多个免费的python爬虫小项目！

爬虫技术能做什么

除了上述一个比较神奇的例子之外，其实爬虫还能够做很多事情！

上面那张图，都是爬虫技术在的实际运用，而且！是免费，提供源代码，获取方式上面已经提到了。

具体的还包含机器学习，大数据分析等比较好玩的技术。

另外有些小伙伴问为什么要用python，这边得澄清下，爬虫技术不仅仅是python这门编程语言可以实现，Java、PHP都可以做到，而且也能做的非常好！

只是目前爬虫技术领域比较热门的编程语言是python，所以小编用python来举例！

以上，如果你喜欢这篇文章，给我来个赞，好么。

W3Cschool

使用此代码可爬任意网站所有图片！！

Composerthink

当前的主流爬虫手段是用Python编程，Python的强大毋庸置疑，但初学者学习Python还是需要一两个月时间的。有没有一些更简单的爬取数据方法呢？答案是有的，我们为你准备了如下小工具，对于每个小工具你只需要花十几分钟时间，跟着我的步骤走一遍就可以掌握它啦~

一、Microsoft Excel

首先教大家一个用Excel爬取数据的方法，这里用的Microsoft Excel 2013版本，下面手把手开始教学~

1. 新建Excel，打开它，如下图所示

2. 点击“数据”——“自网站”

3. 在弹出的对话框中输入目标网址，这里以全国实时空气质量网站（http://www.pm25.in/rank）为例，点击转到，再导入

选择导入位置，确定

4. 结果如下图所示，怎么样，是不是很赞？

5. 如果要实时更新数据，可以在“数据”——“全部更新”——“连接属性”中进行设置，输入更新频率即可

二、Google Sheet

使用Google Sheet爬取数据前，要保证三点：使用Chrome浏览器、拥有Google账号、电脑已翻墙。如果这三个条件具备了的话，下面我们就开始吧~

1. 打开Google Sheet网站：http://www.google.cn/sheets/about/

2. 在首页上点击“转到Google表格”，然后登录自己的账号，可以看到如下界面，再点击“+”创建新的表格

新建的表格如下：

3. 打开要爬取的目标网站，一个全国实时空气质量网站http://www.pm25.in/rank，目标网站上的表格结构如下图所示

4. 回到Google sheet页面，使用函数=IMPORTHTML(网址, 查询, 索引)，“网址”就是要爬取数据的目标网站，“查询”中输入“list”或“table”，这个取决于数据的具体结构类型，“索引”填阿拉伯数字，从1开始，对应着网站中定义的哪一份表格或列表

对于我们要爬取的网站，我们在Google sheet的A1单元格中输入函数=IMPORTHTML("http://www.pm25.in/rank\

THU数据派

我编程0基础，前段时间突发奇想，就用爬虫做过一个事情，不知道算不算有趣。

起因是给女朋友买钻戒，就突然有了搞一波“大数据”分析的想法，即爬一些钻石的数据，并建立钻石各项参数和价格的拟合关系式，类似这样的事情吧。

于是用scrapy爬了一波bluenile的钻石，大约四万多颗圆钻吧；
然后用numpy 和pandas 胡乱分析了一通，matlibplot 可视化后好像能唬到人的样子………:-D；

详细的我主页文章有，比较菜，就不舔着脸给传送门了。抓到的钻石数据，有兴趣可以私信我哈。

不知何时醒来的加菲

我的爬虫 https://github.com/wangqifan/ZhiHu

这个爬虫用实验室十台电脑一起干活，可随时添加删除机器，具有良好的伸缩性，为了能够实现断点续爬和多台电脑之间的协作使用了Redis作队列，为了保证不重复爬取使用Redis作hash表,所有爬取的任务都放到hash表中进行标记。爬取太频繁会被知乎返回429（too many request）,应对的策略是挂代理，一种方法是使用专业的云代理服务（有点贵）,另一种是自建代理池，定时爬取互联网上免费代理ip。最后数据使用sql server存储，最后对数据进行分析，使用百度echart.js进行画图

ProxyPool

https://github.com/wangqifan/ProxyPool

应用场景

爬虫过于频繁的抓取网站信息会被反爬虫机制屏蔽掉，或者有些网站对我们的Ip有限制，一个IP之能操作一次，这个时候就需要设置代理了。这方面需求还是很大的，有专门的服务商提供代理，没钱的自己动手打造一个代理池吧

基本思路

部分网站上有免费的代理IP信息，比如xicidaili.com，proxy360.cn。这些网站有很多免费代理IP，然而有些质量不好，需要程序及时从代理池中删掉质量低的代理，不断加入优质代理。

WeChatAnalyse

https://github.com/wangqifan/WeChatAnalyse

数据展示

zuin

当然是做统计了....

说下我最近爬取知乎用户的过程

这是一个知乎爬虫项目

============

项目地址 https://github.com/rensuperk/javaSpider

============

有兴趣可以看看,贴几张图吧

这是爬取1个星期的成果

最土豪的人(捐赠最多)

最爱回答问题的人,真劳模.

大概就这些吧,有时间写个悟空问答的爬虫玩玩

很穷的老K

爬虫入门简单快速，也非常适合新入门的小伙伴培养信心。GitHub对应所有项目，祝大家学习愉快~

WechatSogou [1]– 微信公众号爬虫。基于搜狗微信搜索的微信公众号爬虫接口，可以扩展成基于搜狗搜索的爬虫，返回结果是列表，每一项均是公众号具体信息字典。

DouBanSpider [2]– 豆瓣读书爬虫。可以爬下豆瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中，可方便大家筛选搜罗，比如筛选评价人数>1000的高分书籍；可依据不同的主题存储到Excel不同的Sheet ，采用User Agent伪装为浏览器进行爬取，并加入随机延时来更好的模仿浏览器行为，避免爬虫被封。

zhihu_spider [3]– 知乎爬虫。此项目的功能是爬取知乎用户信息以及人际拓扑关系，爬虫框架使用scrapy，数据存储使用mongo

bilibili-user [4]– Bilibili用户爬虫。总数据数：20119918，抓取字段：用户id，昵称，性别，头像，等级，经验值，粉丝数，生日，地址，注册时间，签名，等级与经验值等。抓取之后生成B站用户数据报告。

SinaSpider [5]– 新浪微博爬虫。主要爬取新浪微博用户的个人信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进行登录，可通过多账号登录来防止新浪的反扒。主要使用 scrapy 爬虫框架。

distribute_crawler [6]– 小说下载分布式爬虫。使用scrapy,Redis, MongoDB,graphite实现的一个分布式网络爬虫,底层存储MongoDB集群,分布式使用Redis实现,爬虫状态显示使用graphite实现，主要针对一个小说站点。

CnkiSpider [7]– 中国知网爬虫。设置检索条件后，执行src/CnkiSpider.py抓取数据，抓取数据存储在/data目录下，每个数据文件的第一行为字段名称。

LianJiaSpider [8]– 链家网爬虫。爬取北京地区链家历年二手房成交记录。涵盖链家爬虫一文的全部代码，包括链家模拟登录代码。

scrapy_jingdong [9]– 京东爬虫。基于scrapy的京东网站爬虫，保存格式为csv。

QQ-Groups-Spider [10]– QQ 群爬虫。批量抓取 QQ 群信息，包括群名称、群号、群人数、群主、群简介等内容，最终生成 XLS(X) / CSV 结果文件。

wooyun_public[11]-乌云爬虫。乌云公开漏洞、知识库爬虫和搜索。全部公开漏洞的列表和每个漏洞的文本内容存在MongoDB中，大概约2G内容；如果整站爬全部文本和图片作为离线查询，大概需要10G空间、2小时（10M电信带宽）；爬取全部知识库，总共约500M空间。漏洞搜索使用了Flask作为web server，bootstrap作为前端。

spider[12]– hao123网站爬虫。以hao123为入口页面，滚动爬取外链，收集网址，并记录网址上的内链和外链数目，记录title等信息，windows7 32位上测试，目前每24个小时，可收集数据为10万左右

findtrip [13]– 机票爬虫（去哪儿和携程网）。Findtrip是一个基于Scrapy的机票爬虫，目前整合了国内两大机票网站（去哪儿 + 携程）。

163spider [14] – 基于requests、MySQLdb、torndb的网易客户端内容爬虫

doubanspiders[15]– 豆瓣电影、书籍、小组、相册、东西等爬虫集

QQSpider [16]– QQ空间爬虫，包括日志、说说、个人信息等，一天可抓取 400 万条数据。

baidu-music-spider [17]– 百度mp3全站爬虫，使用redis支持断点续传。

tbcrawler[18]– 淘宝和天猫的爬虫,可以根据搜索关键词,物品id来抓去页面的信息，数据存储在mongodb。

stockholm [19]– 一个股票数据（沪深）爬虫和选股策略测试框架。根据选定的日期范围抓取所有沪深两市股票的行情数据。支持使用表达式定义选股策略。支持多线程处理。保存数据到JSON文件、CSV文件。

BaiduyunSpider[20]-百度云盘爬虫。

Spider[21]-社交数据爬虫。支持微博,知乎,豆瓣。

proxy pool[22]-Python爬虫代理IP池(proxy pool)。

music-163[23]-爬取网易云音乐所有歌曲的评论。

jandan_spider[24]-爬取煎蛋妹纸图片。

CnblogsSpider[25]-cnblogs列表页爬虫。

spider_smooc[26]-爬取慕课网视频。

CnkiSpider[27]-中国知网爬虫。

knowsecSpider2[28]-知道创宇爬虫题目。

aiss-spider[29]-爱丝APP图片爬虫。

SinaSpider[30]-动态IP解决新浪的反爬虫机制，快速抓取内容。

csdn-spider[31]-爬取CSDN上的博客文章。

ProxySpider[32]-爬取西刺上的代理IP，并验证代理可用性

静谧岁月

什么是网络爬虫？

网络爬虫也叫网络蜘蛛，即Web Spider，名字也是非常之形象。

如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，一直循环下去，直到把整个网站所有的网页都抓取完为止。如果把整个互联网就当成一个网站，那么网络蜘蛛可以用这个原理把互联网上所有的网页都抓取下来。光是听起来就很有意思，那利用这等技术能做些什么好玩的事儿呢？大家感受下~~

（1）之前在北京买房，谁想房价开始疯长，链家的房价等数据分析只给了一小部分，远远不能满足自己的需求。于是晚上花了几个小时的时间写了个爬虫，爬下了北京所有的小区信息及北京所有小区的所有历史成交记录。

（2）上次发现Android QQ和iOS QQ可以显示网络状态（2G/WiFi)之后，突然想到，这样子好像可以监视某人的出行和作息规律。简单的来说，在家里或者工作的地方，一般是有WiFi的，然后出门了，WiFi就断掉了。如果监测频率足够频繁，那么结合一定的推理，可以大致推测出一个人的行动。如果长期监视，那么可以大致推出一个人的作息时间。

因为只有Android QQ和iOS QQ有这个功能，所以要得到一个人的网络状态比较麻烦。我的做法是跑 Android 模拟器。然后用按键精灵模拟，并把网络状态截图，用 curl post到服务器上。服务器会把每次发送的时间、截图保存下来。因为是用程序截图的，所以只要网络状态是一样的，那么截图就是一样的，这样服务器就只会保存2~3张图片而已，其余的发现是相同的图片，数据库做个标记就好了。然后人工做OCR，还是注意到只有2~3张图片，所以工作量很少。得到数据后，要做各种统计就可以自己搞了……

（3）在用Python写网页爬虫之前，我只用来写过了一个驾校约车的脚本，让当时的我不惧上万的学车同僚，在约车环节没有输在起跑线上。接着那段时间，我女朋友的领导每天下班都会下任务，要收集100条有招聘需求的信息，第二天检查。看到她熬夜百度+复制粘贴到半夜，心疼死了。想到了某个牛人说:一切重复性的工作都可以用程序来完成。于是偷偷花了些时间研究了下她经常查的某些同类业务网站的页面数据，培育了这只爬虫。主要技能就是爬这些网站的招聘公司信息及联系方式，保存到Excel中。

在我将战斗成果----1000多个客户资料的Excel表格发给她的时候，先惊喜，后审问，再感慨！依稀记得那天她发了一条朋友圈，内容是：“有个程序员男朋友，感觉好幸福啊！！”成就感走直线啊，都能让她感到幸福，你说这只爬虫是不是做了很酷很有趣的事情呢？

（4）我用爬虫爬了我爱白菜网、超值分享汇、发现值得买、惠惠购物、今日聚超值、留住你、买手党、没得比、慢慢买、牛杂网、买个便宜货、什么值得买、天上掉馅饼、一分网、折800值得买、值值值等网站的折扣信息。

（5）大二学生一枚，前段时间中期考试，成绩一直不出来，又不想每次都登录，突然就像用以下所学的东西来干点事情。说干就干，花了我将近4个小时完成成绩提醒功能。主要是用Python定时抓取数据（定时用Ubuntu的crontab），分析数据是否变化，然后发送短信。其实大部分时间是花在分析学校模拟登陆那一块了，毕竟要提取各种值，还有url重定向，本来就才学Python，对一些东西也不是很熟悉。运行起来之后还是效果还不错，10分钟抓一次，第一时间知道了我的概率论。。。这

些网站都是提供的一些及时的、性价比较高的商品，很多时候要一个一个网站的看（重度用户），很容易就会错过一些很划算的商品。

（6）在学校的时候做过一个项目，通过爬微博的文字，分析国内各个地区的用户收听虾米的热度和最受欢迎的歌手。当然也没有用什么很复杂的技术，就是写基本的TF-IDF。做完的时候觉得自己好有想法啊，能实现这么有意思的东西。后来发现早就有公司做过了。当然别人做的是美国版的。于是现在，我就在这家公司工作。

（7）朋友交易了一套房子，手机号流落到了各种中介手里，隔几天就有中介电话骚扰，不胜其烦。每接一个电话都加黑名单，但还是有新号码打过来，so⋯⋯问我咋办！ Android 手机的拦截倒不是问题，但需要房产经纪人的号码数据库，就只能去网上爬了！各个房产站的广州站点加上58什么的，一个多小时爬了快两万个号码，去重之后还有一万五千多⋯⋯ 一时兴起，又去爬了深圳、北京和上海，现在都不知道拿这些号码去干嘛了⋯⋯ PS：貌似活跃房产经纪的数量能反应市场活跃度？ PS：我觉得我可以把全国城市的都爬下来。