關於百度Spider(百度蜘蛛)個人見解

Spider也就是大家常說的爬蟲、蜘蛛或機器人,是牌整個搜索引擎最上游的一個模塊,只有Spider抓回的頁面或URL才會被索引和參與排名。需要注意的是,只要是Spider抓到的URL,都可能會參與排名,但參與排名的網頁並不一定就被Spider抓取到了內容,比如有些

網站優化屏蔽搜索引擎Spider後,雖然Spider不能抓取網頁內容,但是也會有一些域名級別的URL在搜索引擎中參與了排名(例如天貓上的很多獨立域名的店鋪)。根據搜索引擎的類型不同,Spider也會有不同的分類。大型搜索引擎的Spider一般都會有以下所需要解決的問題,也是和SEO密切相關的問題。

關於百度Spider(百度蜘蛛)個人見解

首先,Spider想要抓取網頁,要發現網頁抓取入口,沒有抓取入口也就沒有辦法繼續工作,所以首先要給Spider一些網頁入口,然後Spider順著這些入口進行拆遷抓取,這裡就涉及抓取策略的問題。抓取策略的選擇會直接影響Spider所需要的資源、Spider所抓取佔全網網頁的比例,以及Spider的工作效率,那麼Spider一般會採用什麼樣的策略抓取網頁呢?

其次,網頁內容也是有時效性的,所以Spider對不同網頁的抓取頻率也要有一定的策略性否則可能會使得索引庫中的內容都很陳舊,或者該更新的沒更新,不該更新的卻浪費資源更新了,甚至還會出現網頁已經被 刪除了,但是該頁面還存在於搜索結果中的情況。那麼Spider一般會使用什麼樣的再次抓取和更新策略呢?

再次,互聯網中的網頁總有一競價是沒有外部鏈接導入的,也就是常說的“暗網”,並且這部分網頁也是需要呈現給廣大網民瀏覽的,此時Spider就要想方設法針對處於暗網中的網頁進行抓取。當下百度是如何來解決這個暗網問題的呢?

最後,大型搜索引擎的Spider不可能只有一個,為了節省資源,要保證多個SPIDER同時作業且抓取頁面不重複;又由於各地區數據中心分配問題,搜索引擎一般不會把Spider服務器放置在一個地區,會多地方同時作業,這兩方面就涉及分佈式抓取的策略問題。

seo小陳覺得Spider的抓取策略跟網站優化的框架有很大的關係,要想抓取得更新,網站框架必須符合搜索引擎的要求。

https://www.seochen.com/wzyh/199.html


分享到:


相關文章: