怎麼做數據分析?——一份來自58同城數據分析師的總結!

文:水水水


源:追求數據自由的土先森

來58兩年了,從互聯網流量的小白到現在也算是踩了很多坑,很多方法性的東西受制於自己的見識可能無法全面的呈現出來,但是該總結還是要總結的,趁部門有這樣的需求,借這個機會理了一遍。

怎麼做數據分析?——一份來自58同城數據分析師的總結!

互聯網數據分析的工作其實很成體系。如果一定要將自己手頭的事情進行分類的話,可以分成四種:

  1. 第一種是在突發的事件產生,比如流量突然下降之後,考慮到及時描述事件做出的描述分析;

  2. 第二種是基於產品運營策略上線後,做出的全面的原因的分析;

  3. 第三種是在數據管理的過程中,對前後端埋點的校驗還有表數據的校驗;

  4. 第四種是基於一定的理論做出的自上而下的分析;

怎麼做數據分析?——一份來自58同城數據分析師的總結!

第一種和第二種在描述和尋求原因解釋的時候實質上都是一種數據做寬的思想,在做寬的過程中會藉助對比、結構來最終描述和解釋數據在業務上的變化。

數據的校驗分析差異性太大,而且不同的情況處理的有點多,依賴於數據分析師的經驗和技術介入能力。

競品分析則對宏觀建構能力有要求,一個好的框架能夠幫助自己快速從大量的繁雜且非標的數據中找到切入點,從而迅速找到結論。

怎麼做數據分析?——一份來自58同城數據分析師的總結!

數據做寬既是一種方法,也是一種意識。這麼說的原因是基於兩個背景,第一個是我們數據存儲的形態往往是散落的不同顆粒度長表形態,第二個是我們做出的分析是基於一個顆粒度的指標鏈條式直觀呈現,所以寬表意識是連接數據提取的可能性還有最終產生結論的橋樑。

所以在這個過程中,寬表顆粒度的主鍵一定要想清楚(活躍企業效果分析),比如活動分析的主鍵是渠道號、用戶流量分析的主鍵是cookie或者uid、推薦的主鍵是用戶id加上對象的職位id,個人認為分析的過程就是一個做寬表的過程(特別是分析的過程更多的是基於探索的基礎上,還有各種四比六分的訴求等等),多個訂單中找到首單和尾單指標等等,當我們能夠把業務的內容抽象成一張寬表後,我們已經能夠將業務目標能夠抽象成自己的數據目標了,實際上這種思想運營是最缺少的,運營一直想打通所有的數據。

想清楚這些東西之後才能在每個維度上增加我們想要的衡量指標,比如用戶的流量分析,則要把各個環節的行為特徵和信息特徵都定義出來,這個地方說簡單也簡單,說難也挺難的,行為特徵的定義需要大量業務的知識在裡面,才能得出有結論性的內容出來,各個行為特徵串起來其實也是一個技術性的問題。

怎麼做數據分析?——一份來自58同城數據分析師的總結!

怎麼做數據分析?——一份來自58同城數據分析師的總結!

怎麼做數據分析?——一份來自58同城數據分析師的總結!

之前做過很多關鍵事件的盤點分析(BOSS的影響分析、app流量下降分析、M流量異動分析),這些分析過程我們可以理解為是一種基於事件的分析,選中影響的時間軸的先後很重要,然後再選擇重點的指標去衡量對比這兩個時間先後指標的差異,或者說跟做實驗一樣,是實驗組和對照組選擇的過程,選擇組+關鍵指標才是成功得出分析結論的關鍵,如果很難形成一個比較好的前後時間點比較的內容,也可以拉一個以時間軸為粒度的折線圖,這裡是最適合代入一些業務的事件東西放進去,如果不清晰的話我們拆分結構再來看折線,拆個幾次,有的線會穩定,有的會存在較大的波動,波動的維度就是需要重點考慮的。

指標影響一般都是圍繞我們關鍵想分析的內容,BOSS影響分析更多圍繞發佈流量和活躍指標來講的,app流量下降分析指標是既定的,所以找了很多結構性的內容來輔助說明,比如新老用戶、app的強制註冊策略,但是多是基於業務理解的。

怎麼做數據分析?——一份來自58同城數據分析師的總結!

怎麼做數據分析?——一份來自58同城數據分析師的總結!

在準確的數據不充分或者橫向比較的時候,特別是做的(競品分析,繁星導入對平臺影響分析、前後對比)會用到大量的結構分析比較,結構分析用柱狀圖比較多,優勢結構和劣勢結構一目瞭然,然後這種分析方式也避免了一直對數的毛病,缺點就是不精確 。

之前驗證的關鍵影響因子的內容都需要在探索性的分析中儘量有體現,特別是在找原因的過程中,之前驗證的有影響新老用戶佔比、是否為付費渠道佔比、是否為經過營銷補貼的用戶佔比等等都需要加入到寬表中。

怎麼做數據分析?——一份來自58同城數據分析師的總結!

新產品驗證或者運營策略用漏斗會比較多,這一套東西跟增長黑客的理論會很像,這裡的數據如何定義流程節點的行為很關鍵,流程節點和底層MVP埋點現實情況需求的數據結合起來,總之就是在鐐銬下舞蹈,在各種限制性條件來解決實際問題。

怎麼做數據分析?——一份來自58同城數據分析師的總結!

密度分析的方法不常用,我用的時候主要用在標籤很多密集的時候,比如打電話時長分佈,用戶為主鍵自然是一個分佈形態,本質上如果標籤夠少就是一個柱狀圖的分佈,這裡用法跟卡方類似,如果比較其他的分類變量比如性別或者渠道等等,這裡的分佈偏向則一目瞭然,或者說,這也是對於平均數的一種拓展。

怎麼做數據分析?——一份來自58同城數據分析師的總結!

怎麼做數據分析?——一份來自58同城數據分析師的總結!

校驗數據最大的難點在於需要自己找到錨定的指標來衡量這個數據的準確性(其中難度最大還是在終態表的校驗,跟業務的代碼有關,流水錶倒可以通過個案測試來實現),然後發現問題之後嘗試瞭解這個數據的原理,看有沒有修正的可能,比如-1來源的簡歷到底是什麼(通過結構佔比、註冊來源、簡歷完整度來衡量),簡歷表中的刷新時間到底有沒有包括登陸後的自動刷新(找到登陸時間來看結構佔比),職位付費狀態和企業付費狀態是一回事嗎(對比一致的情況,對比不一致的情況,通過交叉來查看,如果繼續出現問題,比如一個企業既有免費職位又有付費職位,則可以通過註冊時間進一步排查)等等。

  • 埋點

  • 傳輸

  • 統計口徑

比如-1簡歷來源問題,前面兩個過程都是幫我們判斷這個到底是不是系統的bug數據問題。

怎麼做數據分析?——一份來自58同城數據分析師的總結!

怎麼做數據分析?——一份來自58同城數據分析師的總結!

競品分析比較依賴於自上而下的模型,因為不同數據的對比是非標且海量的,純粹探索成本太高且效果不好。

怎麼做數據分析?——一份來自58同城數據分析師的總結!

怎麼做數據分析?——一份來自58同城數據分析師的總結!


分享到:


相關文章: