网络的搅屎棍——爬虫

说起爬虫,很多网站的管理者是又爱又恨,即讨厌别人爬自己的网站,又需要去爬别人网站的东西。说起来,爬虫我也写过,反爬虫的努力我也做过,最后我就得出一个结论—‘网站的资源一旦公开,想完全不被爬是不可能的,能做到的也就是多给爬虫添点堵,提高爬资源、内容的成本’。

网络的搅屎棍——爬虫

网络爬虫其实也就是一个自动提取网页内容的程序,模拟人为方式浏览各种网页,按特点的条件去抓取网络信息中的内容,然后按我们设定好的方式,将信息收集起来。说起来,百度蜘蛛应该是目前中国最大的爬虫了,很多搞SEO优化的朋友都知道,要将关键字加到MATE标签中,也就是百度蜘蛛在爬取网站内容的时候,会将网页mate标签中的特定信息读取来做网站关键字。

那么爬虫爬网站的速度有多快呢?我拿百度来举例子,当我们在浏览器中按下F12就可以看到下图内容。

网络的搅屎棍——爬虫

这个时候我们在点击Network就可以看到,www.baidu.com的加载时间是7.83ms,如果我们单纯的,只是爬网页内容,不考虑并发的情况下,也就是8ms爬完一个网页上我们所需要的内容。如果我们需要爬的是资源或图片之类的内容,那就得另算时间另。点开Network中的第一列,我们可以看到整个网页所需加载的内容,其他网页所展示的内容也是依据这个请求所返回的内容所展开的。


网络的搅屎棍——爬虫

通过我们请求回来的代码,我们可以拟定规则去读取特定内容,然后在编写规则去处理这些内容。

今天关于爬虫的介绍就写到这里,后续会更新我写爬虫以及防爬虫


分享到:


相關文章: