大數據學院:技術大咖告訴你,為什麼你做的用戶畫像模型不精準?

對企業而言,得用戶者得天下,能夠有一套科學的精準營銷、個性化推薦模型,無疑會促進業務的增長;對開發者而言,用戶畫像也是頻繁被提及的技術,這樣可以根據目標用戶的動機和行為上進行產品設計,遠遠優於為腦中虛構的東西做設計。

用戶畫像的應用場景甚多,但即使是從事這方面研發的人,對其內部邏輯也是似是而非。大家都希望自己的用戶畫像模型更加精準,如何做到?這就要深入解剖,理解用戶畫像與標籤的關係、根據何種理論建模更加有效?大數據時代,需要上帝的視角,有了科學的大數據思維方法和理論指導,才能在結合實際業務建模中游刃有餘。

DT時代要從比特流中理解人類行為

水有源木有本,之所以需要用戶畫像,是因為DT時代相較傳統IT時代發生很大變化:DT時代的數據是現實世界的虛擬化表現,數據本身構成了一個虛擬世界,這使得IT系統構建在虛擬系統上,也變得更加智能。

尤其表現在信息化建設、可穿戴設備、信息網絡的發展,使全社會的信息化程度越來越高,越來越多的業務需要計算機應用,將設備和人連接在一起,用戶與這些應用、設備交互中產生大量數據。

在這種社會科技發展趨勢下,人與人溝通的方式發生了根本變革,這就導致“要學會從比特流中解讀他人”,因此要構建用戶畫像;但數據這麼大,人工顯然無法應對,所以“還要教會機器從比特流中理解人類”,再在畫像的基礎上構建一些應用,比如個性化推薦、精準廣告、金融徵信等,進行機器與人的交互。

你真的理解用戶畫像是什麼意思嗎?給你深度解析

用戶畫像、標籤、360度用戶視圖等這些詞經常被提起,但實際上連從事研發工作的人,對這些概念也不甚瞭解。要想搞清楚,還需要從理論層面解讀。

用戶畫像從某種程度上說來源於對事物的描述,但每個人描述事物的方式和角度不一樣,梳理共性,可將用戶畫像分為五個層次:


大數據學院:技術大咖告訴你,為什麼你做的用戶畫像模型不精準?


第一個是目標,目標都是為了描述人、認識人、瞭解人、理解人。這是用戶畫像最大的目標。

第二是描述的方式,分為非形式化(語音、文本、視頻、圖像……)和形式化(讀卡器讀取信息的形式)兩種手段。

第三是組織方式,就是結構化和非結構化的組織方式,我們前面看到的球員數據它就是結構化的。

第四個就是用戶畫像標準,包括常識、共識、體系。這個很重要(比如說某個人特別二次元,這個詞對方就可能聽不懂,是因為雙方對二次元這個詞沒有達成共識,所以必須有一套達成共識的知識體系,不然用戶畫像這件事是沒有辦法達到的。)

最後一個是驗證,依據:事實、推理過程、檢驗。為什麼一定要驗證?舉個例子,比如說某個人“特別不靠譜”,相當於打上標籤,但會被反問為什麼不靠譜、依據是什麼?所以要提前驗證,否則會喪失可信力。

據此,可以得出用戶畫像的定義:用戶畫像是對現實世界中用戶的數學建模。


大數據學院:技術大咖告訴你,為什麼你做的用戶畫像模型不精準?


一方面,用戶畫像是描述用戶的數據,是符合特定用戶需求的對用戶的形式化描述。從業務中抽象出來,可以形容為“來源於現實,高於現實”。另一方面,用戶畫像是一種模型,是通過分析挖掘用戶儘可能多的數據信息得到的。對數據做抽象,可以形容為“來源於數據,高於數據”。反過來,根據這個模型,可以挖掘出更多用戶畫像。

如何構建用戶畫像?讓機器根據一套知識體系理解人類

在90年代流行一種”本體論”方法,但非常複雜。所以重點來了,用戶畫像構建需要根據一套原則,在這裡分享一套相對樸素的方法:


大數據學院:技術大咖告訴你,為什麼你做的用戶畫像模型不精準?


樸素的知識表現方法:符號-概念法。符號與概念是相對應的,比如,狗這個詞是一個符號,但人們腦子中的概念是”四條腿、看家的、一個能汪汪叫的動物”。


大數據學院:技術大咖告訴你,為什麼你做的用戶畫像模型不精準?


樸素的用戶特徵表現方法:標籤-模型法。標籤的定義是用戶特徵的符號表現,模型定義是經驗總結的用戶特徵。什麼是標籤?舉例來說,比如”收入高、坐辦公室” 這個群體可以打上白領這個標籤;同時標籤是跟業務場景綁定在一起的,脫離業務場景的符號沒有明確的含義。比如在阿里內部,關於男女,這樣最簡單的標籤,也有12個男和女,它與業務密切相關,不僅僅是指生理上的男和女,還包括在互聯網喜歡買男性的商品或者女性的商品定義的男女等等。

那麼,用戶畫像和標籤有什麼關係?其實二者是整體和局部的關係,用戶畫像是整體,標籤是局部,而整體和局部的關係可以通過“標籤體系”體現。


大數據學院:技術大咖告訴你,為什麼你做的用戶畫像模型不精準?


根據這個邏輯,可以得出,用戶畫像可以用標籤的集合來表現,即“標籤體系”方法,用戶畫像(整體)和標籤(局部)還包含兩方面的關係:化整為零,整體如何反映在局部;化零為整,局部如何組成整體。


舉例來說:“人都有一雙眼睛一個鼻子”,化整為零來看:應該觀察到每個人都有一雙眼睛和一個鼻子;化零為整:只有位置合適的一雙眼睛和一個鼻子才被認為是一個人。

至於標籤體系,因為標籤是和業務密切相關的,對應的標籤體系也要蒐集所有業務方的需求,制定出標籤體系後,給每一個標籤標準進行定義,最後進行標籤開發。

另外,在用戶畫像建模方面,可以將標籤建模分為四層:第一層是事實類標籤,譬如用戶購物了什麼品類;第二層是機器學習模型的預測標籤,譬如當下需求、潛在需求等;第三層是營銷模型類標籤,譬如用戶價值、活躍度和忠誠度等;第四層是業務類的標籤,譬如高奢人群、有房一族等,它是由底層的標籤組合生成的,通常由業務人員定義。


大數據學院:技術大咖告訴你,為什麼你做的用戶畫像模型不精準?


最後是驗證,對模型的驗證可以分成兩個方面,一個是準確率的驗證,標籤打得準不準;第二個是標籤打得全不全。但這兩個方面沒有辦法同時滿足的。現實業務中無法追求100%完備的標籤體系。不過,目前談得最多的是準確率。其分為兩種,一種是有事實標準的,譬如生理性別;另外一種是無事實標準的,譬如用戶的忠誠度,只能驗證過程,具體效果需要通過線上業務A/B Test進行驗證。

構建用戶畫像的關鍵難題:需要上帝視角

要想精準構建用戶畫像還面臨著許多技術難題,比如用戶多渠道信息打通、多渠道的產品打通、實時採集用戶數據,以及用戶數據挖掘建模等方面。重點解讀下用戶多渠道信息打通和多渠道的產品打通兩個關鍵問題。


首先是用戶多渠道信息打通,大數據時代我們需要上帝視角。

因為用戶與企業的觸點非常多,譬如手機、郵箱、Cookie等,要將同一個用戶的多個觸點進行打通。方法就是把用戶ID視為圖中的頂點,如果用戶的兩個觸點在同一個場景出現(比如用郵箱登陸),那麼就可以把在用戶的郵箱和Cookie用一條邊進行連接,從而構建一張圖。


大數據學院:技術大咖告訴你,為什麼你做的用戶畫像模型不精準?


用戶打通可以基於圖例的方法進行強拉通,也可以採用機器學習方法進行模糊拉通,預測出拉通的概率。


大數據學院:技術大咖告訴你,為什麼你做的用戶畫像模型不精準?


大數據學院:技術大咖告訴你,為什麼你做的用戶畫像模型不精準?


除了用戶打通,不同渠道的產品也需要拉通,可採用標籤體系拉通方法:建立一套標準的分類標籤體系,比如一顆分類樹,任何商品都能劃分到這個分類樹的葉子節點。根據百分點的實踐經驗,手工映射的方法成本高、難以大規模開展,實際工作中會採用機器學習模型+少量的人工規則來實現。

但要實現自動分類,其中難點不在於模型,而在於獲得訓練數據、feature engineering,以及分類樹層級節點之間的依賴問題。

用戶畫像應用,是業務和技術的最佳結合點

可以說,“用戶畫像”在行業應用中算是曝光率最高的技術之一,有很多用武之地,總結來說,包括:售前的精準營銷、售中的個性化推薦,以及售後的增值服務等;用戶畫像的標籤維度包括人口屬性、上網特徵、購物偏好等。


大數據學院:技術大咖告訴你,為什麼你做的用戶畫像模型不精準?


需要強調的是,標籤和應用是相互相承的關係,一方面可以根據現有的標籤維度開發應用,另一方面也可以根據應用的需求擴展標籤的維度,兩者互相促進。


首先,根據用戶畫像進行精準營銷。不同於門戶廣告等DSP公司投放的程序化廣告,百分點著眼點在於幫助企業整合、拉通自己的第一方數據,建立企業用戶畫像、實現全渠道營銷。

而且結合百分點的營銷管家產品,可以實現觸發式的營銷。

比如,用戶在某網站下單購買一款手機,便可以立馬給他推送該品牌手機對應的手機配件廣告。最終效果是,通過用戶拉通用戶畫像,對59萬個潛在消費者形成4個精準人群,並進行投放,是盲投點擊率的10倍。

其次是售中的個性化推薦。這是百分點最開始創立時做的事情,目前已經服務超過1500家的電商和媒體客戶,是國內最大的第三方推薦服務提供商。

值得一提的是百分點推薦引擎的設計架構,核心為四大組件:場景引擎、規則引擎、算法引擎和展示引擎,尤其是規則引擎非常強大,可以根據客戶的業務需求可視化配置推薦邏輯,譬如推新品、清庫存等等,而不僅僅是點擊率最優。

比如百分點的某個團購網站客戶,採用這個推薦引擎解決下單率的問題,通過分析發現了該網站用戶的一系列特徵,譬如忠誠度低、區域性購買等。


大數據學院:技術大咖告訴你,為什麼你做的用戶畫像模型不精準?


最後是如何結合用戶畫像提供“售後”增值服務。上圖是百分點客戶的應用系統方案,通過數據接口實時反饋用戶相關信息,包括歷史維修、歷史諮詢並進行知識推薦等內容,支撐服務效率、提升客戶滿意度;同時收集用戶的服務滿意度數據,進一步補充、完善用戶畫像信息。

小 結

在大數據時代,機器要學會從比特流中解讀用戶,構建用戶畫像變得尤其重要,是上層各種應用的基礎。

用戶畫像不是數學遊戲,而是嚴肅的業務問題。構建用戶畫像的核心是進行標籤建模,標籤不僅僅是個符號,更要和業務緊密關聯,是業務和技術的最佳結合點,是現實與數據化的最佳實踐。不斷從更深的邏輯角度思考建模理論,並有效匹配業務應用,用戶畫像在實際業務中的重要價值將會越來越大。

講師介紹:蘇海波,百分點集團研發總監,清華大學電子工程系博士。擅長文本分析、機器學習,精於個性化推薦以及計算廣告學;多篇論文發表於GLOBECOM、ICC、IEICE Transactions 等國外頂尖學術會議和期刊;曾負責噹噹網百貨搜索以及adsmart廣告系統的算法效果優化;曾負責新浪微博信息流廣告產品整體算法策略的設計及研發。


分享到:


相關文章: