你不得不知道的推薦系統基礎知識

進入互聯網網工作已經2年多的時間,在這兩年的時間裡,要說接觸的最多的一個詞,可能就要數“推薦系統”了。但一直以來都是簡單的瞭解推薦系統的大概作用和功能,沒有深層次的研究過推薦系統相關的知識,最近花時間收集和整理了一些相關的概念和知識,和大家相互交流,有不對的地方希望多交流啊~

一、什麼是個性化推薦系統及其作用是什麼?

按照百度百科給出的定義: 個性化推薦是根據用戶的興趣特點和購買行為,向用戶推薦用戶感興趣的信息和商品。簡單來說,就是根據用戶的歷史行為特徵,預測用戶可能會感興趣的內容或商品,進而展示給用戶。從推薦系統的定義中,我們會發現,這項技術是一個連接用戶與內容的橋樑,那在這個基礎上,我們就會產生這樣的一個疑問,這個連接的橋樑的作用是什麼?

在實際的應用中,我們會發現,個性化推薦系統所要解決的問題,其實是在信息過載和冗餘的情況下,怎麼把用戶真正感興趣的內容從眾多的內容中挑選出來的問題。

二、推薦系統的組成

(一)、畫像

1、定義:畫像指的是從用戶產生的各種數據中挖掘和抽取用戶在不同屬性上的標籤,如年齡、性別、職業、收入、興趣等。

2、畫像生成路徑

  • 用戶行為日誌收集和存儲(離線數據和實時數據)
  • 用戶行為提取,特徵加工,生成特徵向量(靜態特徵和動態特徵)
  • 利用有用戶屬性標籤的數據作為有標註數據來訓練畫像預測模型
  • 對更多的有標籤用戶屬性來進行預測


你不得不知道的推薦系統基礎知識

3、畫像分類

按照數據類型劃分:(目前使用較多的分類)

  • 靜態畫像:用戶相對穩定的信息。缺點:實時性不夠,過於粗糙
  • 動態畫像:用戶不斷變化的行為信息,根據用戶行為將物品的結構化結果傳遞給用戶

按照畫像性質進行劃分

  • 定性畫像(定性描述用戶或內容的特徵信息)
  • 定量畫像(統計類標籤,預測類標籤)
  • 定性畫像+定量驗證

在以上的三種畫像分類中定性畫像,是通過用戶的行為習慣,挖掘出的標籤信息,一般可以深入繼續挖掘用戶的動機,但這類的畫像標籤,一般無法用數據直接驗證,只能定性理解。與定性畫像不同,定量畫像有充分數據驗證,可以通過數據統計和分析來進行驗證,但他對統計的要求比較高,且一般難以挖掘用戶情感傾向和行為操作背後的原因和深層次的動機。最優的方法就是第三種將二者結合起來的方法,這種方法既能通過數據描述也能從用戶行為中驗證畫像的準確性,但將二者結合的方法會存在工作量大的問題,且定性畫像與定量畫像之間可能存在相悖的結論,需要較為豐富的經驗進行論證。

4、畫像驗證

  • 準確率:
  • 覆蓋率

準確率指的是被打上正確標籤的用戶比例,準確率是用戶畫像最核心的指標,一個準確率非常低的標籤是沒有應用價值的。通常會通過以下兩種方法來評估標籤的準確率

  • 在標註數據集裡留一部分測試數據用於計算模型的準確率
  • 在全量用戶中抽一批用戶,進行人工標註,評估準確率(數據更可信)

覆蓋率指的是被打上標籤的用戶佔全量用戶的比例,同理一個覆蓋率太低的標籤,是沒有應用價值的。通常對於覆蓋率的評估是以某一個標籤覆蓋的用戶比例和覆蓋用戶的人均標籤數作為評估標準

(二)、召回

1、定義: 從全量的文章庫中按照一定的規則篩選出一個文章候選池,一般的規則有:按照機型,地域,熱點和用戶-文章協同過濾

2、召回的作用:從全量內容中,第一次粗過濾,篩選出大概率適合展示給用戶的內容,減少後續計算的複雜度

3、常用召回方法:

基於熱點召回:基於熱點事件的召回,通過對熱點事件相關的內容進行計算,同時匹配可能感興趣的用戶,進而進行推薦展示

基於地域召回:計算用戶和內容的位置信息,以地理位置作為匹配關聯的核心因素,進而圈選出相匹配的用戶和內容

協同召回(基於用戶和內容兩種召回方法):主要分為基於用戶的協同召回和基於內容的協同召回兩種方法,以基於用戶的協同召回為例進行說明:

當需要對用戶A進行推薦時,找到和A有相似興趣的其他用戶群B,把B喜歡看的,而A還沒有看過的內容進行召回,進而推薦給A用戶

(三)、排序

1、定義: 是推薦系統中召回後的一個模塊,主要是一個或多個指標為依據,進行打分,一般將得分按照倒序進行排列

2、排序的作用

  • 高效:幫助用戶找到想要的商品(新聞/音樂/……),發掘長尾
  • 降噪:將重複的文章進行合併,剔除垃圾信息
  • 提高用戶訪問的頻次:讓用戶頻繁訪問,並總是能找到他們想要閱讀和購買的物品

3、衡量指標

ctr:當給用戶推薦他真實喜歡的內容時,用戶就會產生比較大的點擊意願,進而產生較高的點擊。但私以為不應該以單獨的一個指標來進行衡量,畢竟用戶是否產生點擊的影響因素眾多,沒有辦法建立直接的相關性


分享到:


相關文章: