網絡的攪屎棍——爬蟲

說起爬蟲,很多網站的管理者是又愛又恨,即討厭別人爬自己的網站,又需要去爬別人網站的東西。說起來,爬蟲我也寫過,反爬蟲的努力我也做過,最後我就得出一個結論—‘網站的資源一旦公開,想完全不被爬是不可能的,能做到的也就是多給爬蟲添點堵,提高爬資源、內容的成本’。

網絡的攪屎棍——爬蟲

網絡爬蟲其實也就是一個自動提取網頁內容的程序,模擬人為方式瀏覽各種網頁,按特點的條件去抓取網絡信息中的內容,然後按我們設定好的方式,將信息收集起來。說起來,百度蜘蛛應該是目前中國最大的爬蟲了,很多搞SEO優化的朋友都知道,要將關鍵字加到MATE標籤中,也就是百度蜘蛛在爬取網站內容的時候,會將網頁mate標籤中的特定信息讀取來做網站關鍵字。

那麼爬蟲爬網站的速度有多快呢?我拿百度來舉例子,當我們在瀏覽器中按下F12就可以看到下圖內容。

網絡的攪屎棍——爬蟲

這個時候我們在點擊Network就可以看到,www.baidu.com的加載時間是7.83ms,如果我們單純的,只是爬網頁內容,不考慮併發的情況下,也就是8ms爬完一個網頁上我們所需要的內容。如果我們需要爬的是資源或圖片之類的內容,那就得另算時間另。點開Network中的第一列,我們可以看到整個網頁所需加載的內容,其他網頁所展示的內容也是依據這個請求所返回的內容所展開的。


網絡的攪屎棍——爬蟲

通過我們請求回來的代碼,我們可以擬定規則去讀取特定內容,然後在編寫規則去處理這些內容。

今天關於爬蟲的介紹就寫到這裡,後續會更新我寫爬蟲以及防爬蟲


分享到:


相關文章: