爬蟲是目前最常見的網絡程序,曾經有過統計,說是目前的網絡流量有一半以上是爬蟲使用的。
雖然爬蟲程序隨處可見,但是並不代表這種做法就是合理合法的。
在抓取網頁時,我們要讓自己的爬蟲遵守Robot.txt協議。
一般網站有兩種方式聲明不想被爬蟲爬取按:第一種是在站點的根目錄下增加一個純文本文件,例如http://www.aaa.com/robots.txt。第二種是直接在頁面中使用robots的meta標籤。
接下來,詳細介紹一下robots的meta標籤。
標籤有四類:index、noindex、follow、nofollow。
使用時以逗號分隔。
index指令:表示Robot可以索引本頁;
follow指令:表示Robot可以跟蹤本頁鏈接;
noindex指令:表示拒絕Robot索引本頁,但可跟蹤該頁上的鏈接;
nofollow指令:表示拒絕Robot跟蹤本頁鏈接,但可索引本頁
根據以上的命令,我們就有了一下的四種組合:
:可以抓取本頁,而且可以順著本頁繼續索引別的鏈接
:不許抓取本頁,但是可以順著本頁抓取索引別的鏈接
:可以抓取本頁,但是不許順著本頁抓取索引別的鏈接
:不許抓取本頁,也不許順著本頁抓取索引別的鏈接。
這裡需要注意的是,不要把兩個對立的反義詞寫到一起,例如
還有一點,禁止搜索引擎建立快照。
以上的一段代碼限制了所有的搜索引擎建立你的網頁快照。
如果我們需要僅僅限制一個搜索引擎建立快照的話,就可以像如下這樣去寫
這樣的標記是禁止搜索引擎為你的網站建立快照。
閱讀更多 愚人談優化 的文章