搜索引擎的前世今生:2.搜索引擎的主流技術架構

前言


搜索引擎的前世今生:2.搜索引擎的主流技術架構

搜索引擎

歡迎閱讀小王同學的長篇原創連載文章之《搜索引擎的前世今生》。

本文是該系列文章中的第2篇,在今天的這篇文章中,小王同學將會給大家主要介紹搜索引擎的核心目標與技術架構分析。

如果您對搜索引擎的誕生歷史和發展歷程感興趣,歡迎閱讀 。


正文


搜索引擎的前世今生:2.搜索引擎的主流技術架構

上一篇文章講到了搜索引擎誕生的目標是解決信息過載,也就是幫助互聯網用戶找到他們想要的內容。因此,在搜索引擎技術發展的過程中,存在三個繞不開的目標:更全、更快、更準


搜索引擎的前世今生:2.搜索引擎的主流技術架構

互聯網爬蟲

“更全”指的是搜索引擎應該儘可能多地覆蓋互聯網上的網站資源。而實現“更全”的方式是通過互聯網爬蟲對全網的資源進行下載。

眾所周知,現在互聯網上的網站數量大概是在百億的規模,這還僅僅是已經被發現的網站。所以,“更全”的目標對爬蟲技術有著“相當高”的要求。同時,爬蟲下載的網站內容也極其龐大,隨之而來對存儲技術也帶來了巨大的挑戰。

可以說,“更全”是“更準”的基礎,而“更快”則是“更全”的附帶品,接下來我們來聊聊“更快”。


搜索引擎的前世今生:2.搜索引擎的主流技術架構

大數據時代

更快”這個目標則是貫穿於整個搜索引擎的技術架構,索引技術、緩存技術等都是為此而提出的。

面對海量數據,“更快”可以帶來更好的用戶體驗、更高頻的技術產品迭代和更多的技術嘗試。我認為,“更快”這個目標是保證“更準”的基礎。

更準”這個目標是搜索引擎的核心競爭力。無論是排序技術還是鏈接分析技術,抑或是用戶研究等技術,其目標都是致力於讓搜索引擎“更準”,以此加強用戶體驗,形成自己的核心競爭力。

對於搜索引擎而言,“更全”和“更快”可以讓自身不落後於其他競品,而“更準”則是搜索產品的護城河。

上面介紹了搜索引擎的三個核心目標,搜索引擎的技術架構便是由上述三個目標“生長”出來的。下面我用一張圖來介紹搜索引擎的技術架構。


搜索引擎的前世今生:2.搜索引擎的主流技術架構

搜索引擎技術架構

首先,網絡爬蟲對互聯網上的內容進行下載,下載後通過相似度計算對網頁進行去重。

接下來,對去重的網頁進行特徵提取,構建倒排索引和網頁之間的連接關係。

進而,搜索引擎通過“倒排索引”和“鏈接關係”對內容相似性計算和鏈接分析,得到檢索詞和內容的相關性以及各個網站的重要度。

然後,通過相關性和重要度進行網頁排序,也就是大家常說的rank。排序之後,將排序結果進行緩存,以備用戶查詢。

當用戶的檢索詞在緩存系統中不存在時,需要調用排序功能對檢索詞相關的內容重新排序,並放回緩存系統;若檢索詞在緩存系統中存在,則直接取出返回給用戶即可。

除了上述所說的模塊,反作弊模塊也是一個非常重要的模塊。隨著搜索引擎在流量分發上帶來的巨大價值,出現越來越多的以商業利益為目標的作弊手段,這對搜索引擎“更準”的目標產生了不良影響。


最後

今天小王同學介紹了搜索引擎的三個核心目標以及搜索引擎的技術架構。

在下一篇文章中,小王同學講給大家帶來搜索引擎爬蟲技術。

歡迎關注小王同學,獲取最新最快的搜索技術內參。


分享到:


相關文章: