Robots中Meta標籤簡介

Robots中Meta標籤簡介

爬蟲是目前最常見的網絡程序,曾經有過統計,說是目前的網絡流量有一半以上是爬蟲使用的。

雖然爬蟲程序隨處可見,但是並不代表這種做法就是合理合法的。

在抓取網頁時,我們要讓自己的爬蟲遵守Robot.txt協議。

一般網站有兩種方式聲明不想被爬蟲爬取按:第一種是在站點的根目錄下增加一個純文本文件,例如http://www.aaa.com/robots.txt。第二種是直接在頁面中使用robots的meta標籤。

接下來,詳細介紹一下robots的meta標籤。

標籤有四類:index、noindex、follow、nofollow。

使用時以逗號分隔。

index指令:表示Robot可以索引本頁;

follow指令:表示Robot可以跟蹤本頁鏈接;

noindex指令:表示拒絕Robot索引本頁,但可跟蹤該頁上的鏈接;

nofollow指令:表示拒絕Robot跟蹤本頁鏈接,但可索引本頁

根據以上的命令,我們就有了一下的四種組合:

:可以抓取本頁,而且可以順著本頁繼續索引別的鏈接

:不許抓取本頁,但是可以順著本頁抓取索引別的鏈接

:可以抓取本頁,但是不許順著本頁抓取索引別的鏈接

:不許抓取本頁,也不許順著本頁抓取索引別的鏈接。

這裡需要注意的是,不要把兩個對立的反義詞寫到一起,例如

還有一點,禁止搜索引擎建立快照。

以上的一段代碼限制了所有的搜索引擎建立你的網頁快照。

如果我們需要僅僅限制一個搜索引擎建立快照的話,就可以像如下這樣去寫

這樣的標記是禁止搜索引擎為你的網站建立快照。


分享到:


相關文章: