產品、運營需知的用戶數據採集體系打造方法

構建全面、精細、實時的數據採集體系的實戰方法。

1

一般而言,產品的用戶數據分析過程主要分為以下5步:

产品、运营需知的用户数据采集体系打造方法

數據採集作為整個流程的基礎,採集的質量在數據分析的過程中將起到決定性作用。常用的用戶數據可分為屬性(User)數據與事件(Event)數據,而常用的數據來源主要包括客戶端、服務端、業務數據與歷史數據。數

數科技TA用戶行為分析系統就使用屬性(User)+事件(Event)的定義方式,可以快速、高效、清晰的滿足用戶多維分析與深度下鑽分析的要求。

在APP產品中,用戶交互所產生的事件越來越多,數據量也越來越大,如何構建良好的數據採集體系顯得愈發重要。以下三步,教你構建有價值的數據採集體系。‍

一、全面的數據源

通過客戶端SDK進行數據採集的方式,在各行業已經使用數年,然而受制於客戶端網絡狀況的不確定性以及數據的有效性,僅通過客戶端進行數據採集,往往會導致最終的分析結果存在誤差並且深度有限,無法滿足精細化運營的需求。相反,作為數據上帝視角的服務器端所輸出的數據顯然更為準確深入,對於一些精確度要求較高的數據,建議使用服務端日誌作為原始數據。

當然,客戶端採集的方式也有其不可替代的價值,除了接入方便以外,用戶的部分客戶端點擊行為往往不會通知服務器,而這類行為可能恰恰反映了用戶的操作習慣,適合通過客戶端進行採集。此外,除了上述兩種數據源,產品的業務數據庫、歷史日誌、第三方數據源等都可以在數據分析過程善加利用,提供價值。

基於各種數據源本身的特性,選擇合適的接入方式所產生的數據方能全面精準地重現用戶在產品各個時間段內的具體行為,夯實整個數據分析環節的數據基礎。下面可以一起看下每種數據源的特性及其常用的採集方式。‍

产品、运营需知的用户数据采集体系打造方法

全端數據的區別與採集方式

由上可見,每種數據源都具有其不可替代的方面,我們應該跳出客戶端埋點即APP自身數據採集的固有思維,真正理解並運用各項數據源。當然,在融合不同數據源時,也存在很多“坑”,簡單地舉兩個例子:

1、不同數據源數據格式及含義都不同,需要做統一的數據ETL處理,從而能夠在同一系統內交叉分析。

2、不同數據源可能存在同類型的用戶行為記錄,在採集的過程如不加梳理,反而容易使得後續的分析過程變得繁瑣,所以在埋點的時候,對其進行有效地梳理工作,能夠大幅提高數據埋點的質量。‍

二、精細的數據維度

在不同行業的數據分析領域中,經常強調無埋點的數據採集方案,但無埋點僅採集標準化的用戶交互數據,在數據維度的層面會有很大的缺失,例如無埋點採集能夠獲取用戶購買的點擊行為,但無法得知用戶具體購買了什麼商品,導致數據深度不足,分析的深度也隨之降低。

因而在數據採集的過程中,不僅需要關注數據的全面性準確性,數據維度也非常重要。以手遊產品舉個例子:在採集玩家開始戰鬥行為的同時,除了事件本身,建議將關卡ID、難易度、出戰卡牌、角色等級、角色職業等相關信息一併落地,這樣不僅能夠分析玩家對於關卡的粘度,更可以通過這些維度發現關卡難度的平滑程度、卡牌的使用率及強度、角色的強度等等問題。

以下是針對遊戲產品中部分主要玩家行為及其維度建議的案例,僅供參考:

产品、运营需知的用户数据采集体系打造方法

數數科技建議通過精細的採集定義實現用戶多維分析

基於上表,可以發現其實絕大多數的數據維度都是在代碼埋點時唾手可得的,並不會添加多餘的工作量,但基於這些維度,後續可分析的角度及深度將大大增加。多維度的數據能夠為後續分析的深度提供保障,使分析過程不再侷限於簡單的事件統計,而是從各個角度去了解掌握玩家。‍

三、實時的數據流轉

數據實時性的重要程度是不言而喻的,無論是在服務器或活動的開啟、還是廣告的投放,都需要根據實時數據做出快速的反應,然而這一點往往也是很容易忽略的,數據分析人員一般認為客戶端SDK在用戶產生數據後,短暫的延遲後即發往數據接收端,基本上可以說是準實時的,但卻忽略了一個嚴重的問題,即數據流轉時間。數據接收端的確準實時地收到了數據,然而這些數據是否可以實時查詢,是否已經聚合到各個統計維度中,如果整個數據分析系統的數據流轉是有延遲的,H+1甚至是T+1的,那麼數據的實時性便無從談起。

所謂實時的數據流轉並不是指數據實時地從源端發送至數據接收端,而是指從數據的產生到數據真正應用於分析的整個過程是否是實時的。

實時的數據流轉一直是數據分析中的一大課題,雖然各種分析工具中都有所謂的實時統計模塊,但也僅僅是基於一些簡單的重要的常規指標,例如DAU、當日充值等數據的展示,其覆蓋面顯然是不夠的。開服過程中,運營人員需要實時地監測各個模塊的實時情況,而非僅僅登陸和充值,譬如新用戶轉化情況、首次充值時間、新人促銷活動的參與,這些數據越早獲取對運營決策的幫助越顯著,而大多數分析工具往往要第二天才能輸出該類數據。

目前對於實時的數據流轉主要採用了流式數據處理方式,而與之對應的則是之前常規的批量計算方式,其主要區別如下圖:

产品、运营需知的用户数据采集体系打造方法

數數科技推薦流式計算保障數據實效性

推薦採用流式計算方式:

1、與批量計算慢慢積累數據後按批次計算不同,流式計算將數據計算平攤到每個時間點上,連續地進行進行傳輸,數據持續流動。

2、計算結果上,批量計算對全部數據進行計算後落地結果並展示,流式計算是每次小批量計算後,立刻應用於在線系統,實時化展現。

流式計算看似與數據採集關係不大,實則息息相關,沒有實時的數據流轉,那麼數據的實時傳輸也將沒有意義。

可以說要想數據分析做得好,優質數據不能少。完備的數據採集體系至少是符合以上三個特性的,全面、精細、實時,基於此,後續的數據分析才能事半功倍。


分享到:


相關文章: