搜索引擎對頁面的處理方法及排序

頁面的處理

在頁面收錄過程中,搜索引擎已經抓取並存儲了網站上的URL,接下來,搜索引擎會對所抓取的頁面內容進行分析。

搜索引擎對頁面的處理方法及排序

頁面分析流程

在這個過程中,我們看到了兩個“網頁”。第一個“網頁”指的是剛才搜索引擎已經收錄的URL資源(即搜索蜘蛛抓取的原始頁面),第二個“網頁"指的是搜索引擎對關鍵詞進行重組之後所對應的網頁。搜索引擎對頁面的分析由該原始頁面正式開始。

  • 提取正文信息

這裡所提取的正文信息除了包含頁面內容外,還包含頁面的頭部標籤信息(Tile Keywords、Description) 等。

  • 分詞/拆詞

提取完信息後,搜索引擎按照機械分詞法和統計分詞法將正文信息切分為若干關鍵詞,這些關鍵詞組成了關鍵詞列表。我們大家在搜索引擎裡查找內容時往往會輸入關鍵詞查找,這裡搜索引擎的工作就是按照定的規則將內容劃分為詞,以便以後大家搜索。

  • 建立關鍵字索引

上一步搜索引擎已經將正文內容切分為了若干關鍵詞,這些關鍵詞出現的位置、頻率等是不同的,在這一步, 搜索引擎會將關鍵詞逐一記錄、 歸類、建立索引,比如關鍵詞出現的頻率(建議2%-8%是比較合理的)。

  • 關鍵詞重組

搜索引擎為頁面關鍵詞建立索引後,再將這些關鍵詞重新組合,以關鍵詞的形式重新組建一個新的網頁,這個網頁上的關鍵詞是唯一的, 全部不重複,比如,我們剛才在第三步時,A關鍵詞出現了三次,在第四步,我們只記錄A關鍵詞1次,在重組網頁後,A關鍵詞再無重複。

至此,搜索引擎對頁面的分析完成,在這一環節, 搜索引擎完成了對頁面正文信息的提取、關鍵詞的切分、關鍵詞的索引以及搜索引擎角度上的網頁重組。

頁面排序

當搜索引擎完成了對頁面的分析,將頁面以唯一關鍵詞的形式進行了重新組合, 接下來進入頁面排序的環節。頁面排序的環節實際上是由用戶配合來完成的。當用戶在搜索引擎中輸入關鍵詞進行在搜索時,搜索引擎便開始了頁面排序的工作,我們知道,任意輸入一個關鍵詞就可以在搜索引擎中找到很多網頁,這些網頁的先後順序是怎樣產生的呢?影響頁面排序的因素有哪些?

實際上,決定頁面排序的因素很多,如頁面相關性、鏈接權重及用戶行為。

  • 頁面相關性

  1.關鍵詞匹配度

  在搜索引擎中,一般情況下搜索引擎列表中都會包含我們所輸入的關鍵詞。當我們輸入關鍵詞進行查詢時,搜索引擎會首先檢查網頁中是否有該關鍵詞,這是基礎條件。

  2.關鍵詞詞頻(密度計算)

  搜索引擎為了能夠有效地防止網站所有者惡意操控搜索結果,會去比對頁面中關鍵詞出現的頻率與該網頁詞彙量的比例,以此來衡量頁面中的關鍵字詞頻是否合理。過高或者過低都不好,最恰當的頻率一般認為是2%~8%(業界公認最優關鍵詞密度區間值)。

關鍵詞密度是指該關鍵字出現的次數所佔字符數與該網頁總詞彙量所佔字符數的比例。

  3.關鍵詞分佈

  關鍵詞在頁面中出現的位置會影響頁面的排序,一般認為頁面權重的遞減順序是左上>右上>左>右>左下>右下;

  4.關鍵詞的權重標籤

  權重可以理解為重要性。權重標籤如、< em>、

等,標籤內的文字不同於其他文字,搜索引擎會給予相應權重提升。

  • 鏈接權重

  鏈接主要分為內部鏈接和外部鏈接兩種形式,是在製作網站頁面時用來關聯信息的,用來告知用戶所鏈接頁面的重要程度,對於搜索引擎而言,則是用來證明頁面與頁面之間的關聯性、重要性,比如一個頁面的關聯鏈接越多,搜索引擎會給予的重視度就越高。

  • 內部鏈接

  網站內部頁面與頁面之間的相互鏈接關係,一般首頁的權重最高,在同等情況下,如果兩個網站的首頁和內頁進行比較,一般首頁會排在內頁前面。

  1.外部鏈接

  網站與站外頁面之間的鏈接關係,通俗的說法叫作“外鏈”外鏈的質量、數量、相關性都會影響頁面排序。

  2.默認權重分配

  搜索引擎將頁面被抓取的日期作為一個參考因素,頁面在單位時間內獲得鏈接的數量越多、質量越高,則該頁面的質量相對越高。

  3.用戶行為

  用戶對搜索結果的點擊行為是衡量頁面相關性的因素之一,是完善排序結果、提高排序結果質量的重要補充。

  用戶行為主要包括搜索、點擊兩項行為:搜索是用戶獲得信息的過程,搜索引擎通過這個用戶行為學習新詞彙、豐富辭典;點擊是指用戶對搜索結果的反應,被點擊的次數越多,說明越重要,權重越高(重點!!!!)。

注意:搜索引擎為避免馬太效應,會對排在後面的鏈接進行點擊權重補償。


分享到:


相關文章: