面向用戶消費行為理解的數據挖掘方法

海量線上用戶消費行為數據為研究者探索理解用戶消費習慣,制定數據驅動的商務智能策略帶來了全新的機遇及挑戰。本文提出融合用戶消費行為的多學科交叉研究成果,利用數據挖掘方法,從用戶興趣建模、社交情境下用戶消費行為理解及社交服務平臺的動態演化建模三個方面展開在線用戶消費行為理解研究,並分別在真實數據集上驗證了提出模型的有效性。

通過從大量數據中挖掘隱藏的有價值信息,數據挖掘成為理解用戶消費行為模式的一種行之有效的方法。用戶畫像技術全方位立體地展現了在線消費者特徵,推薦系統通過用戶興趣建模技術為用戶推薦未來可能感興趣的產品。由於在線用戶消費行為的獨特性,已有的數據挖掘算法不足以支撐全方面多維度的在線用戶的消費行為理解。具體來說,當前研究工作面臨的主要挑戰包括以下三個方面:

① 在線用戶消費行為數據源的稀疏動態及多元異構性。

② 在線用戶消費決策過程的複雜性。

③ 在線用戶消費行為理解的交叉學科性。

針對上述挑戰,本文提出設計新型的數據挖掘模型理解用戶消費行為。具體來說,我們以不同類型的產品為實例,結合用戶-產品的交互消費數據、用戶- 用戶之間的社交數據,以及諸如用戶屬性、用戶生成的標籤數據等輔助數據,利用用戶興趣建模理論、社交情境下的信息傳播模型以及交叉學科領域知識作為理論基礎,在此基礎上,分別設計出面向精準度和多樣性的用戶消費興趣理解及推薦算法、社交情境下的用戶消費行為理解,以及社交情境下的用戶消費及社交共同演化理解模型。

本文的研究內容框架如圖1 所示。在接下來內容中,我們將對上述三項工作逐一進行概述。

面向用戶消費行為理解的數據挖掘方法

圖1.研究內容框架體系

1 基於用戶興趣建模的消費行為理解與推薦算法

用戶興趣是用戶消費行為的核心因素。用戶興趣建模是推薦系統的核心問題,其旨在通過分析用戶歷史消費行為,設計模型挖掘用戶潛在消費興趣,並基於此設計產品推薦算法,增進用戶的滿意度以及商家收益。根據用戶興趣建模評價方法的不同,本章將分別介紹面向精確度和麵向多樣性兩類用戶興趣建模方法。

1.1 面向精確度的用戶興趣建模方法

在用戶興趣建模方法中,協同過濾技術(Collaborative Filtering,CF)由於具有適用情景廣、算法簡單明確、推薦效果較好等優點,近年來受到學術界和工業界的廣泛關注。協同過濾技術通過收集用戶消費產品的歷史數據,如瀏覽記錄、購買記錄,以及對商品的評分記錄等,利用群體智慧分析用戶興趣,尋找與指定用戶具有相似消費興趣的用戶,綜合相似用戶的歷史數據主動向用戶進行產品推薦。然而,由於協同過濾技術依賴於用戶- 產品的消費信息建模,該類算法通常在用戶- 產品消費記錄較少時無法準確建模。這種情況在推薦系統中非常普遍,被稱之為“冷啟動”問題。

針對上述背景,提出了基於補充標籤信息的用戶興趣建模及推薦方法,設計兩階段的鄰居感知的矩陣分解算法框架(Neighborhood-aware Probabilistic Matrix Factorization,NHPMF)。該框架圖如圖2 所示,其中,第一階段,使用標籤信息獲得用戶和產品的鄰居信息;第二階段,設計統一的模型將鄰居信息融合到矩陣分解過程中,保證“相似的用戶(產品)在隱空間上具有相似的表示”;即通過將補充的鄰居信息引入傳統矩陣分解模型的先驗中,使得每個用戶(產品)的隱向量儘量和鄰居保持相似。最後,在兩個不同數據集上驗證了方法的有效性。實驗結果表明,與傳統的協同過濾算法相比,提出的NHPMF框架能更精準預測用戶的興趣愛好。

面向用戶消費行為理解的數據挖掘方法

圖2 兩階段的鄰居感知的矩陣分解算法框架

1.2 面向多樣性的用戶興趣建模方法

協同過濾技術通過歷史用戶- 產品消費記錄, 衡量用戶和產品之間的相(Relevance),進而為用戶推薦top-N 的興趣列表。因此,這些算法擅於提供精準度高的推薦結果,匹配用戶的主要興趣愛好。例如,1.1 節介紹瞭如何通過額外信息補充用戶- 產品消費矩陣,預測用戶對未知產品的偏好,最終選擇預測評分最高的產品集合作為推薦列表。然而,當前的協同過濾算法過於關注提高推薦模型的精準度,導致推薦算法產生的推薦列表大多被限制在一個相對狹窄的熱門產品集合中,從而用戶的一些小眾偏好卻被算法忽略。因此,傳統推薦算法產生的推薦列表可能比較單調(推薦列表的各個產品之間比較相似,缺乏多樣性),難以覆蓋用戶的全部消費興趣。

部分學者已經意識到具有多樣性的推薦列表的重要意義,一些先期研究工作提出各種方法提高推薦結果的多樣性,這些工作一般分成如下兩個步驟:首先利用傳統的協同過濾算法抽取一個較大的候選集合;然後利用多樣性指標對候選集合重新排序,獲取top-N 的推薦列表。然而,這些方法通常要麼引入額外信息獲取多樣性指標,要麼在提高多樣性的同時降低了推薦結果的精確度。因此,如何在通用情況下不借助產品的額外信息,生成既準確又包含多樣性的推薦結果仍然是一個亟待解決的開放性課題。

基於以上背景提出從一個全新視角理解推薦結果的多樣性問題。我們從經典推薦算法中的基於用戶鄰居的協同過濾算法(User-based Collaborative Filtering,UCF)出發,從算法思想和實驗結果分析該算法無法產生多樣化推薦結果的原因。UCF 算法首先為每個目標用戶選擇相關度高的興趣相似的鄰居用戶,進一步根據鄰居列表中的流行產品為目標用戶生成推薦列表。而UCF 算法在鄰居集合選擇和推薦集合/ 列表生成的兩個階段中,其考慮的相關度指標僅僅從集合中的單個元素出發,並沒有從全局最優的觀念考慮集合中元素之間的關係。(值得注意的是,該類問題不僅僅出現在UCF 算法中,當前主流的協同過濾算法,如基於產品鄰居的推薦算法及矩陣分解算法,均存在此類問題。)為解決上述問題,引入了一個簡單的度量指標——覆蓋度來衡量集合中所有元素的效用。我們將覆蓋度的指標應用於UCF的鄰居選擇和推薦列表生成階段中,考慮如何定義興趣覆蓋度概念使得鄰居集合覆蓋用戶興趣,以及鄰居覆蓋度概念使得推薦集合覆蓋多樣化的鄰居。然後提出了一個統一的推薦框架REC,使得在鄰居集合選擇和推薦列表生成過程中不僅考慮傳統的相關性(RElevance)指標,而且加入新的覆蓋度(Coverage)指標來衡量集合元素的效用。當同時考慮相關性與覆蓋度指標時,REC 框架中的鄰居選擇與推薦列表生成過程的目標函數都是NP 難問題。我們進一步挖掘目標函數性質,提出了一種高效的有理論保證的求解方法。由於REC 在鄰居選擇階段,使得每個鄰居用戶儘可能地覆蓋用戶的不同興趣,得到的鄰居集合具有多樣性;同時在推薦列表生成過程中,鼓勵每個產品覆蓋多樣化的鄰居用戶,得到的推薦結果自然具有多樣性。實驗結果表明,我們提出的算法能夠在不損失精度的情況下,顯著提高推薦結果的多樣性。

2 社交情境下的用戶消費建模及預測

隨著信息技術的發展,社交網絡的興起為社交情境下的用戶消費建模提供了新機遇。與基於用戶興趣建模的消費行為理解不同,在社交網絡中,用戶與用戶之間不再相互獨立,用戶的自身決策行為也會受到社交情境的影響。如何更真實地為現實社會的消費傳播過程建模,也是當前學術界的一個研究熱點。針對此問題,我們通過社交網絡中用戶的手機消費行為為例,結合社會學研究成果,探索社交網絡下用戶的手機消費行為機理,預測用戶未來手機消費行為。進一步,針對傳統二元數據(是否購買)表示用戶對產品偏好的不足,提出時序產品使用率概念衡量用戶對產品的喜好變化,並對用戶的時序產品使用率進行建模預測。

2.1 社交情境下的手機消費情況建模

權威市場調研機構IDC(InternationalData Corporation)曾調查2013 年底全球範圍內的智能手機使用量為18.2 億,預測在2017 年,在所有智能設備中(包括臺式機、筆記本、平板電腦及智能手機),智能手機的市場佔有率將達到70.5%。智能手機市場已經成為各大電子廠商爭奪的焦點。現在,手機已成為人們社交方式的重要組成部分。然而,如何收集大規模社交網絡中用戶的手機消費行為數據,理解社交情境下的用戶手機消費仍然是一個空白的研究領域。

幸運的是,近年來隨著在線社交媒體和智能手機的普及,越來越多的人通過智能手機與在線社交網絡上的朋友分享生活記錄。由於大部分用戶通過智能移動設備接入在線社交媒體,這些移動社交網絡記錄了用戶的智能手機使用足跡。圖3 則展示了Weibo 上用戶的手機使用實例足跡。當用戶在Weibo 上發佈信息時,系統會自動將一條擴展後的信息發送給該用戶的粉絲。這條擴展的信息包含發佈的微博內容、時間戳(2013 年7 月3 日)以及發送該條微博的設備信息(iPhone)。其中,擴展信息中的設備信息為追蹤大規模社交網絡下用戶的手機使用行為提供了數據源。通過跟蹤大規模用戶時間的微博信息流,即可自動獲取用戶及其所在社交網絡的手機消費情況。

面向用戶消費行為理解的數據挖掘方法

圖3 Weibo 上用戶手機使用實例

然而,即使能夠獲取社交網絡中用戶的手機使用情況,理解用戶在社交情境下的手機使用還存在以下技術挑戰。一方面,用戶的消費決策過程受到多種因素影響,如何融合這些因素更好地進行消費行為建模是一個亟待解決的問題。心理學、社會學及用戶行為學等多學科交叉研究結果已確認了三種主要因素對用戶決策行為的影響,即個人因素、社交影響力及同質性。其中,個人因素指代用戶受到自身特性或者興趣驅動,獨立地做出消費決定。然而,現實中人類處於社交環境中,其消費決定行為與所處的社交環境存在千絲萬縷的聯繫。社交影響力及同質性就是社交情境下用戶行為的指導準則。其中,社交影響力指代用戶受到周圍社交網絡中鄰居行為的影響做出決策行為;而同質性描述了社交網絡中“人以類聚”的現象,即有著相似興趣愛好的人相互聯繫,不約而同地做出相似決定。另一方面,不同的因素會導致完全不同的消費行為結構演化,從而影響生產產商的營銷策略制定。準確地區分和理解各因素在消費行為中的作用,對指導商家的營銷策略有著重要意義。

綜上所述,本研究工作的挑戰在於:如何設計統一模型融合各複雜因素對用戶手機消費行為的影響,同時區分各不同因素對消費行為的作用,為商家營銷提供數據驅動的定量指導。針對以上挑戰,我們提出一種有監督的機器學習方法建模用戶的智能手機消費行為理解與預測。在前期準備中,通過跟蹤在線移動社交網絡用戶的行為,收集了網絡用戶的手機使用情況。借鑑消費行為學和營銷學理論,根據用戶當前智能手機使用狀態將用戶分為潛在智能手機首次消費者以及潛在手機品牌更換者兩組。我們設計了SHIP(Supervised Homophily-Influence-Personality)模型建模手機消費行為。該模型融合個人因素、社交影響力和同質性三個重要因素對用戶消費行為進行建模並且可以自動學習各因素對消費行為的貢獻。值得一提的是,提出的SHIP 模型具有普適性,也可以用於其他產品消費行為建模。我們在具有20 萬個節點的社交網絡中進行算法評估,實驗效果表明了所提方法能有效預測用戶手機消費行為。實驗中得到的一個有趣結論是,用戶首次購買手機的品牌容易受到身邊朋友的影響,而用戶更換手機品牌主要由品牌忠誠度確定。

2.2 社交情境下的產品使用率建模

在2.1 節的研究中,我們將用戶的手機消費行為分為已經消費產品的用戶(標籤為1)和暫未消費該產品的用戶(標籤為0)兩類,然後對未消費產品的用戶進行後續消費行為預測,尋找下個時間段潛在的消費者。然而在真實世界的消費行為中,除去很多一次性消費的產品(例如書籍、電影),用戶通常對某類耐用品產品存在著多種備擇選擇,用戶受到自身和外部因素的影響交替選擇具有特定功能的不同產品。例如在手機市場中,用戶可能交替使用蘋果品牌與三星品牌的手機。相比較於是否購買產品的評估表中,廠商更關心用戶對該類產品的品牌忠誠度變化。此時,傳統的0-1 用戶分類標準難以刻畫用戶的消費規律。針對傳統二元用戶消費表示不足,本節提出產品使用率的概念,即產品的使用頻率來準確刻畫用戶對某類產品的喜愛。產品使用率能夠在時序時間內衡量用戶對產品的忠誠度變化。這裡考慮用戶較長時間段的產品使用率序列,即充分挖掘用戶產品使用率的歷史時間序列,進行後續產品使用率預測。

事實上,儘管存在一些相關的時間序列模型(如時間序列分析預測、隱馬爾科夫模型),但是本章提出問題的特殊性使得上述傳統模型難以直接遷移。首先,用戶決策行為是一個十分複雜的過程,內部和外部環境的各種因素,如用戶自身屬性、其所在的社交網絡結構、產品的流行度和大眾認可度等,都會對用戶的產品使用率造成影響,導致了用戶決策結果的不確定性。其次,用戶自身的獨特性使得不同用戶對不同因素的權重不盡相同。例如,一些用戶對社交朋友的意見十分信任,而另外一些用戶可能更關注與他們自身的需求愛好。基於上面的討論,如何根據用戶有限的消費序列(產品使用率序列信息),整合挖掘平衡這些因素成為本節提出問題的另一個挑戰。

針對以上挑戰,我們提出從多因素角度考慮用戶的產品使用率預測問題。首先定義了一個因素相關的產品使用率函數,用來整合各種因素對用戶產品使用率的影響。其次研究設計了GAM(Generalized Adoption Model)和PAM(Personalized Adoption Model)兩類模型求解產品使用率函數,其中GAM 模型不區分用戶的獨特性,假設所有用戶受到各因素影響的程度相同;而PAM 模型則考慮了用戶的獨特性,認為各用戶不同因素的權重不盡相同。為了處理PAM 模型中調參的問題,進一步將PAM 擴展為自動參數學習的貝葉斯的版本(BPAM)。最後,在真實數據集上的兩項產品預測率上進行了豐富實驗, 結果證明了所提方法的有效性。

3 用戶消費行為與社交行為的聯合演化建模

在社交情境下的用戶消費平臺服務中( 通常稱之為社交服務平臺,Social Networking Service,SNS), 在線用戶主要進行兩種行為,即用戶- 產品之間的消費行為(如評分、購買、簽到、發佈帖)及用戶- 用戶建立的社交鏈接行為(如用戶-用戶之間建立的雙邊朋友關係及單邊的關注關係)。因此,發現用戶消費興趣及建立新的社交鏈接是社交服務平臺兩個廣泛用戶受到周圍社交網絡鄰居的影響做出消費決策行為,而同質性描述了社交網絡中“人以類聚”的現象,即人們容易在社交網絡中尋找與自己具有相似愛好的用戶,並與這些用戶建立社交鏈接研究的預測任務。其中,前文提到的CF 算法通過用戶的歷史消費行為,發現與目標用戶具有相似消費興趣的人,構成了用戶消費興趣發現及產品推薦的基礎。而基於網絡節點的近似度算法(Node Proximity,NP),通過挖掘社交網絡圖的拓撲邏輯結構,為社交鏈接預測提供了可行性。通過挖掘用戶某一類的歷史行為數據預測同類型的後續行為,CF 與NP 這兩類算法在各自領域已被前人廣泛研究。然而,社會學研究發現,用戶的這兩類行為並非相互獨立,他們之間的相互影響構成了SNS 平臺的演變——用戶的消費興趣隨時間變化同時社交網絡結構也處於變動中。其中,兩種被廣泛接受的社會學理論揭示了導致用戶兩種行為相互影響的原因:社交影響力指代用戶受到周圍社交網絡鄰居的影響做出消費決策行為,而同質性描述了社交網絡中“人以類聚”的現象,即人們容易在社交網絡中尋找與自己具有相似愛好的用戶,並與這些用戶建立社交鏈接。

我們在此考慮社交服務平臺下用戶兩類行為的演化研究。準確建模社交服務平臺下的用戶行為共同演化存在以下技術難點。一方面,用戶的兩類行為交織在一起構成了社交服務平臺的演化,因此難以區分每類用戶行為對社交服務平臺演化的貢獻;另一方面,如何搭建用戶兩類行為的橋樑,將其中一類知識遷移到另一類行為,實現用戶行為演化的共同建模仍然是一個挑戰。為解決上述技術挑戰,提出一種概率模型共同建模用戶在社交服務平臺上的消費行為,以及社交鏈接行為的演變。根據先前的社會學理論模型假定,每位用戶的當前行為同時受到歷史消費行為(消費興趣)及先前社交網絡的影響。在該假設下,提出的模型定義了每類用戶行為對社交服務平臺的作用,然後設計隱因子模型,將用戶和產品同時表示為隱向量,其中用戶向量隨時間變化且共享於用戶的兩類行為中。為了展示用戶的時序行為變化規律,每個用戶a 在時刻t 的隱消費向量Uat 隨時間變化,且同時受到用戶前期消費興趣和社交網絡鄰居的影響。相應地,用戶a 在t 時刻的社交行為也由其社交網絡和其消費興趣共同決定。該算法的圖模型如圖4所示。根據算法的圖模型,提出了社交平臺用戶兩類行為的共同演化算法。最後,在兩個真實數據集上進行了大量實驗,實驗結果表明所提算法在兩類用戶行為預測上的有效性。

面向用戶消費行為理解的數據挖掘方法

圖4 提出的社交服務平臺聯合演化模型

本文針對利用數據挖掘方法理解在線用戶的消費行為的基礎理論,以及應用性問題進行探索性研究。在數據層面結合用戶- 產品之間的消費數據、社交網絡中用戶- 用戶之間的交互數據及其他輔助數據,通過推薦系統中的用戶消費興趣建模理論、社交網絡中的信息傳播模型及交叉學科中對用戶消費行為的研究,探索了基於用戶興趣建模的消費行為理解與推薦算法、社交情境下的用戶行為分析與預測,以及社交服務平臺下用戶消費行為及社交鏈接行為的共同演化。隨著移動互聯網和在線用戶消費的滲透式發展,關於在線用戶消費行為的數據挖掘研究方興未艾。諸多重要問題及方向值得進一步探索研究。

文章來源:人工智能通訊第12期(吳樂)


分享到:


相關文章: