解放流量!如何限制蜘蛛的抓取流量

網站假如採用的是虛擬空間,那麼都會有一定的流量限制,如果大部分的流量都被蜘蛛所佔據,那麼我們就需要額外花費一些錢去購買流量了。那麼假如一個網站很多流量都是蜘蛛抓取所浪費的,有哪些技巧和方法可以限制而不影響seo效果呢?今天

浙江優就業的小U老師整理了一些合理限制蜘蛛抓取流量的方法希望對大家有所幫助。

解放流量!如何限制蜘蛛的抓取流量

找出虛假蜘蛛進行IP屏蔽

通過網站日誌分析,我們可以知道其實很多所謂的百度spider或谷歌spider其實都是假的,我們可以通過解析出這些虛假蜘蛛的IP進行屏蔽,這樣不僅可以節省流量也可以減少網站被採集的風險。具體操作中需要反查出IP是不是真蜘蛛,操作方法為:點擊左下角的開始-運行-CMD-輸入命令nslookup ip 回車就可以看到結果了。如果是真的搜索蜘蛛都有一個蜘蛛標記,而假的蜘蛛卻沒有標記。

限制頁面的抓取內容來提高抓取效率與抓取速度,減少抓取流量

對於任何一個頁面來說,都有很多無效的噪音區,比如一個網站的登錄、註冊部分、最下面的版權信息和一些幫助性的鏈接導航等,或一些模板上存在一些無法被蜘蛛識別的展示模塊等,這些我們都可以採用加Noffollow標籤或ajax、JS等方法進行限制或屏蔽抓取,減少抓取量。

外部調用或cdn加速來提高蜘蛛的抓取,減少服務器的響應和流量浪費

目前的網站大多采用大量的圖片、視頻等多媒體來展示,而這些圖片缺需要較多的下載流量,如果我們把圖片採用外部調用的方式,那麼就可以節省大量的蜘蛛抓取流量。目前比較好的方法有把圖片放在其他的服務器或上傳到一些網盤上都可以。

利用站長工具限制或提高蜘蛛的抓取,或者限制蜘蛛抓取的時間

目前百度站長平臺和谷歌站長平臺都有站長抓取的工具,可以用來限制蜘蛛抓取的時間和抓取量,我們可以根據需要進行合理調配,達到最佳的效果。

屏蔽無效的蜘蛛或對seo效果小的搜索蜘蛛

比如我們知道谷歌蜘蛛是抓取量非常大,但是對於很多行業來說谷歌的流量很低,seo效果並不好,因此可以進行屏蔽谷歌蜘蛛的抓取而節省大量的流量,例如美麗說網站就屏蔽了谷歌蜘蛛的抓取。除了谷歌之外,還有一些蜘蛛比如的盤古搜索、bing蜘蛛等,這些流量都非常低的,或者幾乎沒有太大作用的蜘蛛其實都可以屏蔽掉。

用robots限制無效頁面或重複頁面的抓取

有一些頁面可能以前存在但是現在沒有了,或者是存在動態與靜態的URL一起存在,由於存在反向鏈接或數據庫內有這樣的鏈接,蜘蛛仍舊會不時進行抓取,我們可以找出返回404頁面的URL,把這些URL都給屏蔽掉,這樣既提高了抓取屏蔽也減少了流量浪費。

當然在實際中我們也可以根據自身實際需求來解決,比如可以對一些抓取量過大的欄目在sitemap設置較低的抓取頻率、對一些重要的內容如果收錄不好的話也可以增加外鏈或內鏈來提高抓取等,方法是死的,我們可以根據具體的續期去進行合理化的設置,來達到更少的抓取而更高的抓取效率。

以上就是浙江優就業今天為大家帶來的內容,想要了解更多IT資訊就來關注小U吧~


分享到:


相關文章: