搜索引擎爬虫在不知道域名的情况下如何搜索到网站？

2020-10-26 10:36:01 佚名

我是一只干货

这个做不到吧？我们以在国内最主要的百度爬虫为例。你有一个新网站，你希望他来抓取你，需要先到百度站长平台提交你的网站。这就要满足一些要求，比如有域名，域名要完成备案。百度爬虫通过多种维度对你的网站进行评级，来决定抓取的频次，评级越高越会经常来抓取你的网站。所以没有域名没有完成备案应该是不满足最基本的要求的。还有，那你现在只能用ip访问网站呗，等以后有了域名，又改用域名访问导致链接变化，这样很不好会掉权重的。

AI云

这个问题初看答案是不可能的，不知道域名怎么爬呀，那我们先来分析下，搜索引擎是怎么爬取数据的。

首先，我们讲下正常的爬取。

一般，你的网站想要被搜索引擎录入，你就会在网站跟目录，放一个robot.txt文件，有这个文件，就相当于在饭店的一个清单，上面列出了你想要给搜索引擎录入的一些目录，你也可以说，哪些目录不能检索，搜索引擎就不会去检索这些目录了，文件格式可以看下示例

############

User-agent: Googlebot

Disallow: /

Crawl-delay: 5

Disallow: /bin/

Disallow: /tmp/

Sitemap: http://domain.com/sitemap.xml

############

上面这个表示，Google你就另来录入我了，其它引擎可以，并且不要去看我的bin和tmp目录，且检索间隔是5s

但我怎么让搜索引擎知道我的网址地址呢？早期，搜索引擎有提供一些入口，做为网址的录入，站长如果想在搜索引擎上显示自己的网站，会自己先行去录入，这样可以为自己的网站导入流量。现在基本上，搜索引擎会有专门的渠道获取已经开通域名，然后统一拨测一下，就可以获取取Robot.txt，就可以录入网址了。

你说这世界域名千千万，它不可能都爬一次吧，其实，这个校验速度还是很快的，另外，别忘了，搜索引擎每天基本都要对链接进行维护，因为，链接可能存在变更和失效的情况。

当然，还有一些是通过搜索引擎的其它技术来实现的，比如在解析一个网页时，这个网页如果有外链地址的话，爬虫会把这些URL放到URL池中，再进行深度遍历，继续爬取。

如果你的网站没有域名，只有IP，那还能被录入吗？理论上，IPV4的最大组合是2^8^4个，再刨去10,172,198等非公用IP，总共不超过40亿个，看起来很多，但对计算机来说，并不多。不过，这样检索非常的消耗资源，一般是不考虑的。

所以说，即使搜索引擎爬虫不知道域名，也是可以通过穷举法来搜索的，但其实不需要这么麻烦，通过注册局的数据，完全可以知道每天新增多少域名，减少多少域名，再进行遍历一次，查找robot.txt，就比较简单了。

当然，也还是有引擎搜索不到的。移动互联网的App时代，就创造了这种信息孤岛，他们已经不靠搜索引擎引流，所以就不在乎搜索引擎是否能搜索到他们。

一颗萝卜啊

域名服务商提供的，你都知道是爬虫了，初期就26个字母拼接域名去爬呗，通了就记录，没通就继续爬，全世界最多也就几千万个域名，对服务器爬虫来说小意思，周期性的爬爬就好，以后对已经爬到的域名检验一下就可以了！

分享到:

關鍵字: 科技搜索引擎域名