搜尋引擎是如何工作的?

鞠文波


所謂搜索引擎,是指按一定的策略,運用特定的計算機程序從互聯網上搜集信息,對信息進行組織和處理後,向用戶提供檢索服務,將用戶檢索的信息展示給用戶的系統。國內的搜索引擎代表如百度、360、搜狗,國外的搜索引擎代表如谷歌、必應。

搜索引擎工作的原理可簡單地分為四步,依次包括頁面收錄、頁面分析、頁面排序和關鍵字查詢。

1,頁面收錄

搜索引擎通過蜘蛛程序在互聯網上抓取並將之進行存儲的過程,這為搜索引擎開展各項工作提供了數據。在互聯網中,URL是每個頁面的入口地址,搜索引擎蜘蛛即通過URL抓取頁面。蜘蛛程序從URL列表出發,通過URL抓取並存儲原始頁面;提取原始頁面中的URL資源並加入到URL列表中,如此循環,從而可從互聯網中獲得足夠多的頁面。

頁面收錄的方式包括廣度優先、深度優先和用戶提交。廣度優先是一種橫向的頁面抓取方式,從最淺層開始抓取頁面,直到抓取完同一層次上所有的頁面後才進入下一層。深度優先是一種縱向的頁面抓取方式,首先跟蹤最淺層頁面中的某一個鏈接,從而逐步抓取深層頁面,直到抓取完最深層次的頁面才返回淺層頁面;之後,再跟蹤另一個鏈接,繼續向深層頁面抓取。而用戶提交,是指網站管理員只需把網站頁面的URL地址按指定的格式製成文件,後將之提交給搜索引擎,搜索引擎可以通過該文件對網站中的頁面進行抓取和更新。

頁面維護的方式則有定期抓取、增量抓取和分類定位抓取。定期抓取,是指搜索引擎週期性地對網站中已經收錄的網頁進行全面更新,把抓取的新頁面替換舊頁面、刪除不存在的頁面,存儲新發現的頁面。增量抓取,搜索引擎通過對已抓取的頁面進行定時監控,實現對頁面的更新和維護,搜索引擎只需對重要的頁面進行定時的監控,使頁面的更新週期縮短。分類定位抓取,是搜索引擎根據頁面的類別、性質而制定相應更新週期的頁面監控方式。

搜索引擎在抓取頁面時,除了要存儲原始頁面外,還會附加如文件類型、大小、URL、IP地址、最後修改時間和抓取時間等,並再把這些信息作為開展某項工作的依據。

2,頁面分析

頁面收錄只是搜索引擎工作的第一步,用戶使用搜索引擎檢索信息時,往往使用的是詞或者短語。搜索引擎對原始頁面建立索引,實現對頁面的快速定位;提取頁面的正文信息,並對正文信息進行切詞以及為該詞建立索引,從而得到頁面與關鍵字相對應的關係;對所有關鍵字進行重組,建立關鍵字與網頁間對應關係的反向索引列表,從而達成根據關鍵字快速定位相應的網頁。

3,頁面排序

搜索引擎結合頁面的內、外因素計算出頁面與某個關鍵字相關的程度,從而得到與該關鍵字相關的頁面排序列表。

通常,決定頁面排序的因素,具體有頁面相關性、鏈接權重和用戶行為。頁面相關性是指頁面內容與用戶所查詢的關鍵字在意義上的接近程度,主要由關鍵字匹配度、關鍵字密度、關鍵字分佈及關鍵字權重標籤等決定。鏈接分為內部鏈接與外部鏈接,某一頁面得到的鏈接越多,一定程度上反應了該頁面越重要,鏈接權重往往就越高。用戶對搜索結果的點擊是衡量頁面相關性的因素之一,是完善排序結果、提高排序結果質量的、重要的補充。

搜索引擎通過計算頁面相關性、鏈接權重、用戶行為等綜合得分,得到頁面的權重值,之後再按頁面的權重值從高到低排序,並把這個經過排序的列表返回給用戶。

4,關鍵字查詢

搜索引擎接受來自用戶的查詢請求,並對查詢信息進行切詞及匹配後,再向用戶返回相應的頁面排序列表。用戶在搜索引擎中的行為主要分為查詢和點擊。

搜索引擎處理用戶的查詢請求,主要包括,在用戶發出查詢請求前完成被查詢關鍵字的反向索引、相關頁面權重計算等工作;為那些查詢最頻繁的關鍵字對應的頁面排序列表建立緩存機制。所謂緩存機制,是指搜索引擎為在短時間內響應用戶的查詢速度,便為那些查詢最頻繁的關鍵字對應的頁面排序列表建立緩存機制。統計表明,查詢次數最多的前20%的關鍵字大約佔了查詢次數的80%。所以,搜索引擎只要對這20%的關鍵字建立緩存便可滿足用戶80%的查詢請求。


分享到:


相關文章: