淺析個性化推薦&知識圖譜相結合


淺析個性化推薦&知識圖譜相結合

推薦系統是一種信息過濾系統,用於預測用戶對物品的“評分”或“偏好”。

推薦系統火熱,是互聯網、大數據、人工智能發展的必然趨勢。其可應用於各個細分領域。如:新聞微博、電商、外賣團購、視頻音樂、搜索查詢、社交人脈、證券股票等等。

目前推薦系統主要4種推薦方式:熱門推薦、人工推薦、相關推薦、個性化推薦。

熱門推薦顧名思義就是熱度比較高的當下熱點事件或內容,有廣泛的社會關注;人工推薦是編輯或內容運營人員將優秀的文章或物品進行有針對性的推送;相關推薦則為根據當下瀏覽的內容按照一定的信息或關聯規則進行內容推薦;個性化推薦時根據用戶的歷史瀏覽記錄,通過算法和模型進行機器學習為用戶自身定製化的推薦。本文重點關注個性化推薦與知識圖譜相結合的方式。

產生背景

Web2.0我們常用搜索引擎獲取自己需要的信息,即使現在,搜索引擎也是主流的信息資料獲取途徑。但使用搜索引擎的背景是目標明確的情況下,同時也需要將目標轉化為搜索關鍵字,並在巨量的結果集下篩選信息會浪費大量的時間、資源。

當用戶需求較為模糊不能轉化為搜索關鍵字時,推薦系統優勢便凸顯出來。

推薦系統淺析

推薦方式

推薦系統產生推薦列表的常見方式可總結為2種:基於內容與基於協同過濾。

基於內容推薦做法:利用有關物品的離散特徵,推薦具有類似性質的相似物品。(以物推物)

此方法根據用戶歷史信息來識別和推薦類似內容。歷史信息可手動定義,也根據類似性算法自動提取。與協同過濾的最大區別在於它僅依賴用戶自身的信息或歷史訪問記錄,而不依賴其他相似用戶的歷史行為。

基於協同過濾做法:根據用戶的歷史行為,如:購買、評價、點贊等行為,結合其他相鄰用戶的相似決策建立模型,用於預測當前用戶對哪些物品感興趣(或預測某些物品感興趣的程度)。

由於協同過濾要考慮其他用戶的行為,使用群組知識並基於相似用於形成推薦內容。本質上,推薦內容基於多個相似用戶之間的自動協作,並過濾出相似偏好或行為的用戶。

相似性: 根據所用的特定算法,將擁有類似興趣愛好的用戶進行分組,用於推薦內容。可用韋恩圖表示相似程度。

Tips: 推薦系統是代替搜索引擎幫用戶找到合適的物品,而推薦系統實現底層卻使用搜索引擎算法對數據進行索引,還有其他大量相同的技術。但是在用戶需求與應用場景上,推薦系統離用戶更近。

大多數場景下,用戶的個性化需求很難轉化為簡短明確的查詢詞,推薦系統應運而生,填補空白,挖掘用戶歷史行為,滿足個性化需求,實現精準推薦。

還有一種混合推薦方式:“混合方法”。

混合方法是將基於內容與基於協同過濾結合使用,目的為增加推薦系統的效率和複雜性,並且合併之後有可能增加推薦的準確性,混合方法也可用於解決協同過濾數據冷啟動。隨著用戶數據增加或成熟,權重逐步從基於內容過濾轉向基於協同過濾。

與搜索引擎相似,推薦系統也需要對推薦列表集進行過召回、過濾、排序,推薦引擎根據推薦算法獲取到推薦結果集,然後根據篩選條件對召回結果集進行過濾,過濾後最終推薦結果,與此同時對推薦結果按照排序策略算法進行權重排序,用戶便可看到最終的推薦結果。

以上主要為的當前業界所用或者稱為傳統推薦方式,以下將重點關注基於知識圖譜的推薦的系統

數據收集

收集用戶數據不是一蹴而就的。

也就是需要經過常說的冷啟動階段。並且,數據需要經常更新,且有時效性。會隨著時間、地點、年齡等因素的變化而變化。

此處需要引入衰減機制,即讓用戶關鍵詞表中的關鍵詞喜好程度按一定週期或規律保持衰減。具體查看TF-IDF算法,此算法可返回一組某篇文本關鍵詞TF-IDF的詞對數,這些關鍵詞最好的代表了這篇文本的核心內容,而這些關鍵詞將本篇文章的關鍵程度量化。

數據又可分為顯示數據和隱式數據,顯示數據即用戶的購買、退貨、打分、點贊、收藏、評論等形式,直接表達自己的喜好。隱式數據可能使隱形的,需要深度挖掘,如:快進、重複觀看、瀏覽、點擊等等,隱式數據準確度較低,並存在很大的噪聲。今日頭條的內容推薦和微信看一看均提供了讓用戶主動優化推薦引擎的方式,讓推薦數據最大程度的滿足用戶需求,精準描述用戶畫像。

建立評判標準

評判一個推薦系統的前提,是建立一個好的評判標準,不斷改進算法,無限靠近評判標準。推薦系統的實際效果依賴多種因素,如用戶意圖、用戶背景知識、對系統的熟悉度、信任度、用戶界面等等。

目前推薦系統的評判標準可分為“準確度(accurary)”和“可用性(usefulness)”兩種。

準確度是推薦系統的預測結果,與用戶行為之間的誤差。準確度還可細分為“預測準確度”和“決策支持準確度”;預測準確度又可分為“評分預測準確度”、“使用預測準確度”、“排序準確度”等,計算推薦系統對消費者喜好的預測與消費者實際喜好間的誤差平均值。

預測準確度是非常重要的評判標準,卻不是唯一。推薦系統的可用性一般用覆蓋率(召回率)來描述,為描述推薦效果的多樣性,也常採用其他的可用性指標,這些指標對推薦系統的用戶體驗也具有非常重要的意義,如:新穎性、驚奇性、實用性、風險、魯棒性、隱私性、自適應性、可擴展性、推薦效率以及可解釋性等等。

現有評估推薦系統的評估方法主要有:離線測評、在線測評與用戶調研等.下面主要介紹離線測評:

離線測評:把數據集分成訓練集和測試集,通過訓練集學習優化調整模型,用測試集對模型進行測試,計算精確度和運行效率,這種方法簡單、屬於閉門造車,不與用戶交互,不能測試出用戶滿意度。所以一般用戶自測或內部測試。

離線測評中使用3個指標對其推薦結果進行評估:準確率(Precision)、召回率(Recall)、F值(F-measure),這3個值可從結果矩陣中評判推薦結果;具體算法詳解可見歷史文章《算法模型評估:準確率(Accuracy)精確率(Precision)召回率(Recall)和綜合評價指標(F1-Measure)》。

召回率反應被推薦系統推薦的物品佔真正喜歡的物品的比重。準確率反應推薦系統的推薦水平,能不能將用戶喜歡的物品推薦給用戶,而用戶不喜歡的物品則不推薦。F值是準確率和召回率的加權平均,均勻的反應推薦效果。

知識圖譜在推薦系統中的優勢與方法介紹

大數據環境下對知識圖譜的發展奠定了數據上的優勢,對多源異構數據進行整合,建立更細粒度的用戶實體和文章或物品實體,得到更加緊密知識相關性。因此,知識圖譜在擴展實體信息、強化實體之間的聯繫上,有天然的優勢,可為推薦系統提供強大而豐富的參考作用。在知識圖譜中,實體中包含著豐富的描述性知識,而這些知識恰好可以為推薦結果提供精確性、多樣性與可解釋性。


淺析個性化推薦&知識圖譜相結合

將知識圖譜引入推薦系統主要有3種處理方式,並非可商用,此處只做方法介紹:

基於特徵的知識圖譜輔助推薦

基於特徵的知識圖譜輔助推薦的核心是知識圖譜特徵學習的引入,知識圖譜可提供實體之間更深層次和更長範圍內的關聯,知識圖譜的高緯度和豐富的語義關係,使得處理起來比物品屬性更復雜困難。

使用知識圖譜特徵學習對知識圖譜進行處理,得到實體和關係的低維稠密向量表示,由此便可以較為自然的與推薦系統進行結合與交互。

使用該方式處理,根據訓練次序不同又可分為3種方式,以下為3種方式的處理示意圖:


淺析個性化推薦&知識圖譜相結合

基於結構的推薦模型

基於結構的推薦模型可更直接的使用知識圖譜的結構,對於知識圖譜中的每個實體,都進行寬度優先搜索來獲取其在知識圖譜中的多邊關聯實體,並從中得到推薦結果。

根據其所用關聯實體的技術不同,有可分為向外傳播法和向內聚合法:

向外傳播法模擬用戶興趣在知識圖譜上擴展的過程,將每個用戶的歷史興趣作為知識圖譜的種子集合,沿著知識圖譜的鏈接迭代向外擴展。附示意圖一張:


淺析個性化推薦&知識圖譜相結合

向內聚合法在學習知識圖譜實體特徵的時候聚合該實體的鄰居特徵表示,通過鄰居聚合操作,將每個實體的特徵計算都結合其臨近結構信息,且權值是由鏈接關係和特定的實體(用戶)決定,這樣就同時刻畫了知識圖譜的語義信息和個性化興趣。

在這裡提供網上看到的幾種方式作為參考:

下位實體遍歷:瀏覽此商品或文章(實體)後還需要其他下游相關輔助物品或信息,助力或強化已知實體。例如買了手機時候有可能需要屏幕貼膜、耳機、手機保護殼等等。

組合屬性遍歷:根據用戶搜索或瀏覽的信息提供臨近或相似實體,以供參考。如:當瀏覽Thinkpad E450筆記本時,系統便推薦同價位的其他品牌筆記本如華碩、神州等等,供用戶參考。

同屬性遍歷:相同父實體的子實體也具有相關性,當一個實體具有多個父實體,不是所有的父實體都適合被往下遍歷。當用戶諮詢Thinkpad E450時,系統推薦臺式機就不是很合適。

二元實體遍歷:適合同父類實體遍歷,同父類實體通常表示這兩個產品互補或者相似。

多路徑遍歷對比:知識圖譜是網狀的關係,實體之間可以通過多種路徑遍歷得到,所以可以對遍歷路徑進行對比得到較為合適的路徑。

基於知識圖譜表示學習的協同過濾

基本思想是對於協同過濾計算出來的最鄰近物品,系統推薦給用戶,而對於該用戶喜歡的物品在語義上相似的物品,同樣推薦給用戶。相對於協同過濾推薦算法,僅使用推薦算法,加入內涵知識(知識圖譜)會得到更好的效果,推高推薦的可用性。

此方法將推薦物品嵌入到一個低維空間,然後計算物品之間的語義相似性,生成語義相似性矩陣,最終得到物品的語義臨近,同時也解決了推薦冷啟動問題。這裡給出一個TransE-CF算法處理流程圖。


淺析個性化推薦&知識圖譜相結合

推薦系統使用知識圖譜的重點與難點

1、如何對用戶偏好進行精準建模?知識圖譜數據往往多源異構,具有豐富的用戶、物品等實體數據信息,在此基礎上如何提高推薦的準確性。

2、大數據環境下,數據生成速度快,且多源數據融合過程中引入了更多的噪聲和冗餘,傳統推薦算法中採用的精確計算方式越來越難以應對,概率模型統計方法將繼續發揮重要作用。

3、如何評價其推薦效果?傳統推薦系統的評價指標主要是準確度和可用性。這些指標當然也可以用於基於知識圖譜的推薦系統,用準確率和召回率來表示推薦系統的準確度。然而不同領域的推薦系統的實際問題不同,使用不同的數據集,使得難以形成統一的效用評價標準。

4、如何通過深度挖掘和相關性知識提高推薦效果?鑑於知識圖譜的特點,其相對於因果關係,其更適合關係挖掘。通過從知識圖譜中深度挖掘物品實體之間、用戶實體之間、以及物品與用戶間的深層次關係,來得到更多的相關性結果,幫助用戶進行個性化推薦,提高推薦結果的精確性、多樣性和可解釋性。

5、如何提高推薦系統的可擴展性?可擴展性一直是推薦系統應用中的難點。傳統推薦系統中,用戶與物品數量增加,使計算量顯著增大。目前主要的解決方法有聚類、數據集縮減、降維等。知識圖譜中,用戶之間、用戶與物品之間信息互動產生大規模的數據集;將這些數據集融入知識圖譜後會急劇增加計算複雜度。如何將用戶之間產生的數據動態、快速地融入知識圖譜並提高推薦系統的可擴展性,是要解決的難點。

6、怎樣充分利用社交網絡信息?傳統的推薦系統假設用戶之間是獨立同分布的,忽略了用戶之間的社會交互與聯繫。知識圖譜中用戶與用戶、用戶與物品、物品與物品之間都存在一定的聯繫,用戶不再是單一獨立的用戶,需要進一步挖掘用戶之間的聯繫以發現更多的隱含信息。如何充分利用好圖譜中的社交信息,將推薦系統的效果發揮的更好,值得期待。

7、將知識圖譜與推薦系統結合已逐漸成為學術研究與產業應用的研究熱點,但現有方法仍有非常大的侷限性,且模型都屬於統計學習,通過挖掘網絡中的信息,並採用統計學來推斷。現有模型網絡結構都是靜態的,真實的業務場景中,用戶的興趣與需求會隨著時間、地點等諸多因素而改變,如此多變的情況,對知識圖譜的時效性具有非常高的要求,如何刻畫時間、地點的演變網絡,值得深入研究。


分享到:


相關文章: