HTTP系列(第2部分):体系结构(网络爬虫)

HTTP系列(第2部分):体系结构(网络爬虫)

网络爬虫通常被称为蜘蛛,它们是爬行万维网并索引其内容的机器人。因此,Web爬虫是搜索引擎和许多其他网站的基本工具。

网络爬虫是一个完全自动化的软件,它不需要人工交互工作。Web爬虫的复杂性可能有很大差异,一些Web爬虫是相当复杂的软件(如搜索引擎使用的那些)。

Web爬网程序会占用他们正在访问的网站的资源。出于这个原因,公共网站有一种机制可以告诉抓取工具抓取网站的哪些部分,或者告诉他们不要抓取任何内容。您可以使用robots.txt 机器人排除标准)执行此操作。

当然,因为它只是一个标准,robots.txt无法阻止不请自来的网页抓取工具抓取网站。一些恶意机器人包括电子邮件收集器,垃圾邮件程序和 恶意软件。

以下是robots.txt文件的一些示例:

HTTP系列(第2部分):体系结构(网络爬虫)

这个告诉所有爬虫都要留在外面

HTTP系列(第2部分):体系结构(网络爬虫)

而这一个只涉及这两个特定目录和一个文件

HTTP系列(第2部分):体系结构(网络爬虫)

您可以禁止使用特定的抓取工具

但鉴于万维网的广泛性,即使是迄今为止最强大的爬虫也无法抓取并索引整个万维网。这就是为什么他们使用选择策略来抓取其中最相关的部分。此外,WWW频繁且动态地更改,因此爬虫必须使用 新鲜度策略 来计算是否重新访问网站。而且由于爬虫可以通过过快地请求来轻松地使服务器负担过重,因此存在 礼貌政策 。大多数已知的爬虫使用20秒到3-4分钟的间隔来轮询服务器以避免在服务器上产生负载。

你可能听说过神秘而邪恶的 深网暗网的消息。 但它只不过是网络的一部分,有意不被搜索引擎索引以隐藏信息。


分享到:


相關文章: