成為搜索產品經理(1):搜索引擎

本文作者從瞭解搜索產品經理的目的出發,對搜索引擎的發展進行了梳理分析。希望通過此文能夠加深你對搜索產品的認識。

成为搜索产品经理(1):搜索引擎

最近和百度大搜的產品同學交流他的工作,交流之後,自我覺察到我對該崗位的工作認知仍不夠系統,當然,對一個工作崗位的認知也不是三言兩語,1個小時的溝通就能瞭解透徹的。

我嘗試在網絡上找一些資料,但發現,網絡上很少有系統化講解這一崗位的文章。本著羅老師在2020年時間的朋友裡面講到的「躬身入局」的精神,我嘗試查閱了一些枯燥無味的書籍以及文獻,並將其整理如下,與大家分享。

一、互聯網的發展

在討論如何成為搜索產品經理之前,我們需要了解搜索引擎的發展。想要了解搜索引擎的發展,我們先將時間軸拉回20世紀90年代,回顧互聯網的發展。

20世紀90年代,技術與產品的發展,為互聯網的快速普及和發展做好了準備。

1.1 技術上的發展

1991年,Tim Berners-Lee(蒂姆·伯納斯-李、萬維網的發明者)將超文本的概念引入互聯網,同時推出www雛形、配套的HTTP傳輸協議以及相應的Web服務技術

我來解釋一下,蒂姆·伯納斯-李做出這些發明,意味著什麼。

1.1.1 超文本概念

超文本(Hypertext)簡單來說是一種可以顯示在電腦顯示器或其他電子設備的文字,其中的文字包含了可以鏈接到其他字段或文檔的超鏈接,允許從當前閱讀位置直接切換到超鏈接所指向的文字。

從其技術上來說,超文本是指使用超文本標記語言(HTML, Hyper Text Markup Language)編輯包含標記指令的文本文件,通過資源定位符(URL, United Resource Location )指向其他內容,在不同的文檔或同一文檔的不同部分質檢建立聯繫。使得使用者可以通過一個網址訪問不同網址的文件。

1.1.2 萬維網

萬維網WWW(World Wide Web)是一個通過互聯網訪問的,由許多互相鏈接的超文本組成的系統。是一個大規模的聯機式的信息儲藏所,英文簡稱Web。萬維網用鏈接的方法能方便地從互聯網的一個站點訪問另一個站點,從而主動地按需獲取豐富的信息。

成为搜索产品经理(1):搜索引擎

5個萬維網站點

上圖畫了5 個萬維網的站點,它們可以遠隔數千裡,但都必需連接在互聯網上。每一個萬維網站點都保存了許多文檔。這些文檔之間通過鏈接(link),有時候也被稱為超鏈接(hyperlink)的方式彼此相連。可以通過這個文檔鏈接到相隔很遠的另一個文檔,經過一定的時延,我們的屏幕上就可以將遠方發送過來的文檔顯示出來。

萬維網的出現使得網站數按指數增長,所以萬維網的出現可以說是互聯網發展中的一個里程碑。

1.1.3 HTTP傳輸協議

HTTP協議是Hyper Text Transfer Protocal(超文本傳輸協議)的縮寫,是用於從萬維網服務器傳輸超文本到本地瀏覽器的傳送協議。

1.2 產品上的發展

1993年,第一個圖形瀏覽器mosaic誕生,網頁瀏覽客戶端趨於成熟。

Mosaic是第一個可以在同一個窗口顯示文本和圖片的瀏覽器。

成为搜索产品经理(1):搜索引擎

MOSAIC

由於上述技術與產品的發展,互聯網的用戶群體也發生了變化,從開始的軍隊和高等科研院校,普及到了普通個人用戶。擴大的用戶群,為互聯網的商業化奠定了基礎。

二、搜索引擎的發展

綜合因素,導致互聯網上的信息產生爆炸式增長。如何從海量信息中找到滿足用戶需求的信息,成為重點。

技術與產品的發展,降低了人們發佈信息的門檻,同時,由於用戶群體的擴增,網絡上產生了大量的信息。

為了滿足用戶從海量信息中找到所需信息的訴求,一系列搜索引擎商業公司開始建立。比如yahoo、InfoSeek、Fast Search等

搜索引擎是對Internet上的信息資源進行蒐集整理,然後供用戶查詢的系統。包含信息採集、信息整理、與用戶查詢3個部分。

2.1 目錄搜索引擎

目錄搜索引擎是指搜索引擎的信息採集方式,也是搜索引擎的搜索方法。

目錄搜索把蒐集到的信息資源按照一定的主題分門別類,建立多級目錄結構。大目錄下面包含子目錄,子目錄下面又包含子目錄。依次原則建立多層具有包含關係的目錄。用戶查找信息時,採取逐層瀏覽打開目錄,逐步細化,就可以查到所需信息。

目錄搜索引擎中,需要以人工方式採集信息,編輯人員對信息進行查看,形成信息摘要,然後將信息放置在對應的分類結構中。

2.1.1 雅虎

Yahoo是當時著名的搜索和門戶網站。yahoo的目錄搜索引擎。

例如,中文雅虎網站的目錄搜索引擎:

成为搜索产品经理(1):搜索引擎

如果我們要在其中查找關於著名作家金庸的網頁,可以逐步搜索“藝術與人文” | “人文” | “文學” | “文學類別” | “小說” | “武俠” | “作者” | “金庸”,即可實現目的。

成为搜索产品经理(1):搜索引擎

2.1.2 常用的中文目錄型搜索引擎

  1. 搜狐
  2. 網易
  3. 新浪

目錄搜索引擎的利與弊:

  • 利:由於加入了人工的因素,因此信息準確、導航質量高。
  • 弊:需要人工介入,維護量大,信息量少,信息更新不夠及時。

2.2 搜索引擎技術的發展

隨著信息進一步快速發展,信息呈現爆發式增長,目錄搜索引擎的弊端顯現,不能好地滿足用戶需求。

在目錄型搜索引擎技術發展之後,出現了不同的搜索引擎技術:

  • 文本檢索
  • 鏈接分析
  • 用戶中心

在這不做詳細闡述。

三、搜索引擎的目標

搜索引擎的應用形式簡單:用戶輸入查詢詞,搜索引擎返回查詢結果。

在這個過程中,只涉及兩個主體,用戶與搜索引擎。

搜索引擎的目標是提供更全、更準、更快的搜索服務。

在上面的3個目標中,更準是最關鍵的。

四、搜索引擎的3個核心問題

在我們來分析搜索引擎的3個核心問題之前,我們先來看一下單個搜索的簡單流程:

成为搜索产品经理(1):搜索引擎

4.1 用戶需求

根據上圖,當用戶輸入查詢詞,搜索引擎需要返回查詢結果。這個過程,我們可以將其視作一次人機互動。

人機互動,即人與計算機的互動,第一步是獲取用戶的意圖。

對於搜索引擎來說,這也是非常重要的。只有獲取了用戶的真正意圖,後續的信息-意圖匹配才能展開。

用戶的意圖到底是什麼?

  • 不同的用戶,輸入搜索框的同一個查詢詞,有可能背後的意圖是不一樣的。
  • 同一個用戶,輸入搜索框同一個查詢詞,也有可能因為其所處場景不同,其意圖也是不一樣的。

如何識別上述的差異。這也是搜索系統需要解決的第一個核心問題,即此時此刻,用戶的真實搜索意圖是什麼?

4.2 與用戶需求相關的信息

明確了用戶查詢的真實意圖後,搜索系統需要從海量的信息中,找到能夠匹配用戶需求的內容。

搜索系統為用戶搜索意圖匹配關鍵信息方式的指導思想,還是基於關鍵詞的匹配。

當算法系統搜索到包含與用戶查詢詞相同的的網頁,這便是搜索到的信息可能是用戶想要查找的內容相關的最基本信號。如果是網頁或者文本的標題出現了這些關鍵字,則表示該信息與用戶想要查找的內容相關的可能性更大。

4.3 分辨出可信賴的信息

搜索的本質是找到滿足用戶需求的信息。

相關性是衡量信息是否滿足用戶需求的一個指標,信息的可靠性,同樣也是衡量搜索系統質量的重要指標。

「成為搜索產品經理」我會將其做為一個系列來寫,從互聯網的發展開始,抽絲剝繭,將我所瞭解的與大家分享,也期待能與大家討論,共同進步。

本篇是「成為搜索產品經理」的第一篇,後續我會陸續更新~

1. Tim Berners-Lee 談網絡的未來

2. ~[https://en.wikipedia.org/wiki/Mosaic_(web_browser)](https://en.wikipedia.org/wiki/Mosaic_(web_browser))~

3. Internet應用基礎教程 | 尤曉東

4. 信息檢索 | 陳雅芝

5. 這就是搜索引擎核心技術詳解

6. 超文本傳輸協議HTTP https://blog.csdn.net/codejas/article/details/79002339

7. Google 搜索 | 搜索算法的工作方式

題圖來自Unsplash,基於CC0協議


分享到:


相關文章: