深度構建用戶畫像|數據標籤,關聯分析,RFM,用戶體系

無論是提供商品還是服務,用戶畫像都是數據挖掘工作的重要一環。一個準確和完整的用戶畫像甚至可以說是許多互聯網公司賴以生存的寶貴財富。我們也已經聽過了無數用戶畫像的神奇功能和成功案例,比如亞馬遜,淘寶的機器學習團隊使用用戶的瀏覽行為,購物車狀態和購買記錄開發關聯推薦系統,使點擊率和銷量大幅提升;比如應用市場根據過往APP安裝記錄記對每個使用者進行精準推薦;再比如音樂,圖書和新聞網站通過協同過濾的方式為用戶呈現個性化的定製內容。

對於消費品公司而言,雖說用戶行為數據的豐富程度和互聯網產品相比稍顯遜色,但也擁有龐大的用戶信息和交易數據沉澱散落在各個IT系統中,而且更真實,噪音更少。只不過在傳統消費品公司裡會編程,會處理數據的人要比互聯網公司少太多太多。在我們深入瞭解了這些用戶信息和交易數據,並對它們進行了清洗,彙總,打通之後,發現數據質量要比我們想象的好很多,可以支撐許多有意思的用戶畫像的建立。在這裡我會分享一些畫像的流程和思路,供大家參考。

1、數據標籤化

用戶畫像的底層是機器學習,那麼無論是要做客戶分群還是精準營銷,都先要將用戶數據進行規整處理,轉化為相同維度的特徵向量,諸多華麗的算法才可以有用武之地,像是聚類,迴歸,關聯,各種分類器等等。對於結構化數據而言,特徵提取工作往往都是從給數據打標籤開始的,比如購買渠道,消費頻率,年齡性別,家庭狀況等等。好的特徵標籤的選擇可以使對用戶刻畫變得更豐富,也能提升機器學習算法的效果(準確度,收斂速度等)。

一個類是在IT系統中可以取得的信息,比如辦會員卡時留下的信息(性別,年齡,生日),購買渠道,積分情況等;

第二類是可以通過計算或是統計所獲得的,比如用戶對某類促銷活動的參與程度,對某種顏色/款式商品的偏好程度,是否進行過跨品牌的購買等;

第三類則是通過推測所得,比如送貨地址中出現“宿舍”,“學校”,“大學”等字樣,則用戶身份可以推測為學生,出現“騰訊大廈”,“科技園”等信息時,則可判斷是上班族,並有很大概率是技術從業者。

在標籤的設計上也帶有較強的行業性,比如是否偏好購買當季爆款或是新品多於經典款(時尚度);是否更傾向購買低價或打折商品(價格敏感度);是否喜歡購買高價商品或限量版(反向價格敏感度)。

深度構建用戶畫像|數據標籤,關聯分析,RFM,用戶體系

對於已經打好的標籤,根據不同的分析場景進行離散化,或將分類類型的標籤拆成多個0/1標籤,就可以進行一些機器學習的建模了,比如聚類,分類,預測,或者關聯性分析,最終生成的向量維度在數千個。

2、關聯性分析

關聯性分析(Association rule learning)是在零售行業中應用最廣泛的一種機器學習方法,營銷學裡經典的“啤酒/尿布”(超市裡購買尿布的消費者往往同時購買啤酒)案例也已經是家喻戶曉。雖然後來被證實這是一個為了教學目的而虛構出來的案例,但從其上鏡率也可以看得出關聯性分析在零售領域的重要程度,或許這個例子在國內改成“泡麵/火腿腸”會更親切。

關聯性分析的相關文章有非常多,支持度(Support),置信度(Confidence)和增益(Lift)這些基本概念的介紹在這裡就不贅述了,各位如果有興趣可以參見Wikipedia的 Association rule learning 頁面。

和購物籃關聯規則不同,我們數據挖掘過程中的基本單位是用戶,而特徵向量則是基於提取出的用戶標籤而構建的,下表是一個簡單的示例。

第一個例子

深度構建用戶畫像|數據標籤,關聯分析,RFM,用戶體系

我們獲得了一個NxM的特徵矩陣,N為用戶數,量級在百萬級,M為特徵維度,約數千個的二元標籤。基於這個特徵矩陣我們使用了最基礎的Apriori算法計算相關度,並在支持度,置信度和增益三個層面設置threshold,輸出符合要求的關聯規則。

由於輸出的關聯規則可能涉及到客戶隱私,在這裡僅做一個示例。下表中的前項(antecedent)為用戶的所在地,後項(consequent)為最高的活動敏感度, 結果如下:

深度構建用戶畫像|數據標籤,關聯分析,RFM,用戶體系

可見上以及江浙地區對於促銷活動的敏感度和參與度是最高的,增益均高於兩倍,而上海則是達到了3.3倍之多。

第二個例子

另一個例子是顏色的關聯規則,下表展示了用戶對於不同顏色的產品以及SKU之間的偏好特徵,可見某些用戶是有較強的顏色偏向的,比如金色和銀色之間,咖啡色和綠色之間等等。如果運用到商業實踐,因為在買過紫色和杏色的用戶中,接下來會比較會買金色;把這些數據給到地面團隊或者線上團隊,這時候推薦顏色以及配貨就比較輕鬆一些。

深度構建用戶畫像|數據標籤,關聯分析,RFM,用戶體系

值得注意的是,做關聯分析時要確保前後項以及的獨立性(independence)。由於在提取特徵時有些維度本身就是從相同或相關的字段提取出來的,比如用戶的星座以及出生月份,如果不做控制的話就會得出“11月出生的天蠍座特別多”這樣讓人啼笑皆非的規則。

3、RFM Model

RFM模型是用戶價值研究中的經典模型,基於近度(Recency),頻度(Frequency)和額度(Monetory)這3個指標對用戶進行聚類, 找出具有潛在價值的用戶, 從而輔助商業決策,提高營銷效率。如果對RFM模型的細節感興趣可以參見Wikipedia中有關 RFM模型的頁面。

RFM建模所需要的數據源是相對簡單的,只用到了購買記錄中的時間和金額這兩個字段。我們基於交易數據中用戶的最後一次的購買時間,購買的次數以和頻率,以及平均/總消費額對每個用戶計算了三個維度的標準分。然後我們對於三個維度賦予了不同的權重,再基於加權後的分值應用K-Means進行聚類,根據每種人群三個維度與平均值之間的高低關係,確定哪些是需要保持用戶,哪些是需要挽留的用戶,哪些是需要發展的用戶等。

在將這些客戶圈出之後,便可以對不同客戶群使用不同針對性地營銷策略(引導,喚醒等),提高復購率與轉化率。值得注意的是,三個維度的權重製定並沒有統一的標準,比較通用的方法是用層次分析法(AHP),再結合行業以及具體公司的特點進行優化。

圖8是通過RFM模型進行用戶聚類後的結果,可以清楚看到幾個人群用戶的數量以及比例。同時這些分群也會作為標籤重新輸入至用戶畫像以及CRM當中,作為圈定特定用戶群以及營銷的入口。

深度構建用戶畫像|數據標籤,關聯分析,RFM,用戶體系

圖9展示了用戶群之間在各個維度上的分佈。消費,金額,頻率這些模型直接相關的標籤上自然有非常顯著的差異,同時在一些垂直(orthogonal)的特徵維度上也有很大的不同。

深度構建用戶畫像|數據標籤,關聯分析,RFM,用戶體系

4、用戶體系

最後,對消費品公司而言,所有在數據挖掘和用戶畫像方面的投入,根本目的還是要提升業務表現,所以如何將數據挖掘的結果進行落地就變成了尤為關鍵的一環。對於用戶畫像所輸出的所有標籤和關聯規則,都需要通過某種渠道抵達用戶群。

這種渠道可以是一個強大的CRM系統,可以通過不同的標籤圈定用戶群,定向發佈營銷方案;也可以是一個會員客戶端,推送個性化的打折券或新品推薦;甚至是自營電商,實現像天貓京東一樣的數據自生產和自消費的循環。


分享到:


相關文章: