03.19 數據分析常用6種分析思路

數據分析常用6種分析思路

數據分析常用6種分析思路

數據分析常用6種分析思路

文章發佈於公號【數智物語】 (ID:decision_engine),關注公號不錯過每一篇乾貨。

轉自 | CrossHands

作者 | Ahong

作為數據分析師,你是否常因為缺乏分析思路,而被以下問題影響到幸福感(甚至懷疑人生)?

1. 新上線某個產品,需要監控轉化率效果,既要看總體情況,也要看細分渠道;

2. 策劃營銷活動,預算有限,要看看選擇哪些目標用戶群、採用哪種方案帶來的銷量更高(更能拉動KPI);

3. KPI又出現較大波動,待會領導估計要問起來,趕緊分析數據找原因;

一個問題就是從天上隨機掉落的食材,分析思維就是將這些奇形怪狀的食材加工成“看得懂”的美味佳餚。既然要做菜,有哪些值得借鑑的“萬金油”菜譜呢? 本篇會為你慢慢道來。

01

流程

完成一項任務,通常需要一系列操作,比如做菜,得先想好吃啥,然後買菜、洗菜、切菜、炒菜。

1.1

行動步驟

行動步驟就是先確定起點、終點(目標),然後將起點和終點的距離拆分成一個個小步驟,知道先做什麼,後做什麼。


數據分析常用6種分析思路


注:圖中小黑點表示該步驟下可以選擇的行動方案

e.g. 常見的數據分析路徑之一是SAS公司提出的SEMMA範式

1. Sample,數據抽樣,保證數據的效度和信度;

效度是指數據的準確性,也指選擇的數據和分析目標及業務目標是吻合的;

信度是指數據的穩定性,要保證樣本數據有代表性,且在一定週期內不能有過大的波動(否則模型不穩定);

2. Explore,數據特徵探索及預處理,e.g. 看數據的分佈情況、對數據進行標準化等;

3. Modefy,明確問題、模型選擇、方案調整;

4. Model,執行建模方案;

5. Assess,結果評估(準確性、穩定性、是否符合業務預期、效益如何);

另一個常用的數據分析範式是CRISP-DM,分為6個步驟:


數據分析常用6種分析思路


1. 商業理解:確定業務目標,評估現有資源,確定分析目標,制定解決方案;

2. 數據理解:數據採集,探索分析,數據質量驗證;

3. 數據準備:篩選數據,數據清洗,整合數據,變量衍生;

4. 建立模型:模型選擇,檢驗設計,模型建立,結果評估;

5. 模型評估:分析結果和業務目標匹配度確認,檢查1-4步的執行過程,確定下一步行動;

6. 結果部署:規劃部署方案、監控和維護方案,輸出項目報告,項目覆盤;

e.g. 一個報表上線的基本步驟如下:

需求登記 --> 方案規劃 --> 需求排期 --> 數據ETL--> 代碼編寫 --> 數據驗證 --> 報表上線

1.2

分步轉化

要連續完成多個步驟,有的人“淺嘗輒止”,有的人“半途而廢”,有的人則是“善始善終”。

產品轉化的每個步驟都會有用戶流失,好比100個人參加有9個關卡的淘汰遊戲,每個關卡會淘汰10個人,整個遊戲最終會剩下10個獲勝者,把這個遊戲看作產品,那麼該產品的全流程轉化率就是10%(遊戲獲勝率)。


數據分析常用6種分析思路


注:電商APP一般的轉化漏斗

e.g. 常見的電商流程如下:

註冊-->登錄-->瀏覽商品-->加購物車-->支付-->售後

將上述步驟整理成魚骨圖,每個大步驟下還可以拆分更細的小步驟;

比如“支付環節”可以拆分為:

收貨地址確認--> 選擇優惠 --> 選擇支付方式 --> 輸入短信驗證碼-->返回支付結果(成功或失敗)

e.g. 在用戶運營理念中有這樣一個轉化公式:路人-->用戶-->粉絲-->員工,先把圍觀的感興趣的路人轉化為用戶,輕度用戶是產品的使用者,中度用戶是產品的“追隨者”,重度用戶則會主動參與產品的功能反饋和改進建議,在這個轉化過程中用戶的參與度逐步提高。

1.3

閉環迭代

一般的閉環流程包括3部分:事前方案規劃,事中執行監控,事後覆盤總結。

e.g. 營銷活動

事前:確定目標,選定用戶,制定方案,確定檢驗標準等;

事中:實時數據監控(是否達到預期),不同方案賽馬,備用方案啟用等;

事後:對整個流程覆盤,總結經驗,CSS歸類(Continue做先前已驗證的正確的事,Stop做錯誤的事,Start做新的正確的事)

常用的閉環迭代框架是PDCA,通過計劃(P)、實施(D)、檢查(C)、總結(A)4個步驟,循環迭代,螺旋上升。


數據分析常用6種分析思路


另外還要注意,在使用流程化思維時,除了常見的正向思考,也要逆向思考。

02

分類

互聯網時代最核心的經營理念是深耕客群,通過差異化運營提升ARPU值(Average Revenue Per User,每用戶平均收入),而分類無疑是開展這項工作的重要前提。

主要有4種分類方法:

二分法,非此即彼,e.g. 網站新客、老客,貸款審批結果分為通過申請、拒絕申請等;

並列分類,多個分類(子集)構成一個全集,e.g. 用戶地域可以按省份劃分,按年齡可以將用戶分為70後、80後、90後、00後等,女性用戶群體可以分為時尚麗人、都市白領、家庭主婦等;

等級分類,e.g. 會員等級——鐵牌、銅牌、銀牌、金牌、鑽石、皇冠,城市等級——一線、二線、三線、四線;

矩陣象限,e.g. 波士頓矩陣,RFM象限


數據分析常用6種分析思路


分類的規則大致有兩類:

按主體分類,

e.g. 按社會關係模型,用戶角色可以是父母、配偶、子女、朋友等;

e.g. 按照群體劃分,可以分為一般情況和特殊情況、二八原則等;

按屬性分類,依據主體(比如用戶)的屬性進行類別劃分。

e.g. 用戶畫像時可以考慮以下屬性:

1. 社會屬性:收入水平、學歷、職業、婚姻情況等

2. 位置屬性:居住地、工作地、從手機端還是PC端登錄等

3. 生物屬性:年齡、性別、種族等

4. 心理屬性:品牌偏好、購買行為、優惠偏好等

03

對比

“痛苦來自比較之中”(沒有比較就沒有傷害),其實幸福也來自比較之中,痛苦還是幸福,取決於選擇的參照點是高於還是低於你。

對比就是找一個參照點,來發現兩個數據間的差異量Δ大小如何。

對比可以分為兩類:橫向對比、縱向對比。

3.1

橫向對比


數據分析常用6種分析思路


和同類(競品)比較,e.g. 對比不同品牌的女裝的銷售情況,不同銷售渠道(地區)的交易情況;

實驗對比,設置實驗組和對比組,對比兩組或多組之間的差異,以確定人為干預(實驗、方案)的效應。

e.g. 比較不同的產品或運營方案的效果差異時,常採用AB Test,需要確保對比的兩組或者多組在數量和結構上要具有可比性(e.g. 用戶的來源、等級等需要匹配);

和整體比較,e.g. 華東地區的銷售情況和全國總體銷售比較;

做組間比較時,一定要確保樣本的可比性(無論是在數量級還是在群體結構上),e.g. 對比兩個時間段的交易情況,建議剔除掉大促和節假日(這些交易日的數據波動很大)。

有兩類不易察覺的樣本錯誤尤其要提防:

“辛普森悖論”,即兩個樣本單獨得到的結論和樣本合併後得到的結論相反。

e.g. 如下表所示,單獨看APP端和PC端,新客的轉化率都是低於老客的,但是,整體新客的轉化率卻高於老客。


數據分析常用6種分析思路


注:以上數據僅作為說明概念使用,不代表真實場景

“倖存者偏差”,

即樣本已經被容易忽略的因素篩選過。

e.g. 問卷調查中,那些願意填寫問卷的用戶本身就是對產品有高認可度;

e.g. 產品漏斗轉化流程中,處在不同環節的用戶一般不能進行對比

3.2

縱向對比

橫向是和其他對象比較,縱向則是和自己的歷史數據對比。

常見的縱向對比有同比和環比,對比的週期根據實際情況可以按日、周、月、季、年等。


數據分析常用6種分析思路


注:一個常用的多組對比柱狀圖

對比的時候,除了比較相對量,也要看絕對量,以合理地評估數據差異的大小。

e.g. 0.5%的波動是大還是小,需要找參考點,如果歷史波動最高也就0.1%,那麼這個波動就很大。

e.g. 公眾號關注人數昨日環比增長20%(看著還不錯),實際上才增加4個人,截止前天也就20個人。

04

關聯

看數據指標不要只看一個“點”,還要看一條“線”上的前後連接的環節,進而從“面”或“體”的角度去看整個大環境中都有哪些因素相互作用。

對現象的分析可以參考簡單的調節模型:


數據分析常用6種分析思路


其中:X是自變量,Y是因變量,M是調節變量。

尋找關聯關係時,不僅僅要找出對Y有直接影響的X(一個或者多個),還要找出影響X對Y作用的調節因素M。

關聯也可以分為同時關聯延時關聯兩類。

4.1

同時關聯

即多個因素(X)同時發生作用一起促成了現象(Y)的發生。

e.g. 電商網站銷售的變化可能考慮的因素:

用戶:用戶結構是否發生變化,是否有新的註冊渠道,新渠道導流進來的用戶質量如何;

商品:品類結構是否有變化,e.g. 隨著四季變化,服裝類的種類也會發生變化;

產品:多少用戶使用舊版本或者新版本,產品某個環節有沒有改版,產品的策略(商品推薦策略等)是否有變化;

運營:前期的線上或者線下預熱,商城的優惠力度,優惠涉及的人群等;

4.2

延時關聯

現象的產生可能存在延遲效應,要考慮當前現象(環節)的前置的“因”和後置的“果”。

e.g. 今天上線的營銷方案可能在幾天甚至幾十天后才會有顯著的效應,今天交易量上出現的波動也可能是因為一段時間前產品或者運營策略上有改動。

05

層級

要有結構化、系統化的思維,對影響因素自上而下的拆解和自下而上的組合。


數據分析常用6種分析思路


5.1

自上而下的拆解

可以理解為“分級鑽取”,如同金字塔結構一樣,先從總體看到二級分支,然後再看更細的分支。

e.g. 支付成功率的影響,可以對新老客、訂單來源、支付方式、銀行通道一層一層拆解,細化各個分支對整體變化的貢獻率;


數據分析常用6種分析思路


e.g. 銷售額 = 下單人數*客單價 (a)

從登錄到下單是層層轉化後的,所以

下單人數 = 訪客人數*瀏覽轉化率*購物車轉化率*支付轉化率 (b)

公式(b)代入公式(a),得到:

銷售額 = 訪客人數*瀏覽轉化率*購物車轉化率*支付轉化率*客單價

5.2

自下而上的組合

就是將個體組成群體,將小的指標組合成一個綜合指標。

e.g. 用戶的標籤分為基礎標籤和複合標籤,基礎標籤就是單個用戶屬性來定義的(例如性別、婚否等),複合標籤則是考慮多個基礎標籤的組合(例如,某個典型的用戶群體畫像是:女性+單身+白領+一線城市);

e.g. 規劃用戶標籤時,先用頭腦風暴想出一批指標,然後進行歸類、篩選、組合;

e.g. 風控業務中累計壞賬計提的計算,是將不同的逾期資金規定不同的風險計提比例,最後再把所有類別的風險計提資金彙總起來,作為公司所有貸出款項的風險計提資金,從而對公司貸款業務風險進行評估;

舉個形象的例子,自上而下好比國家財政撥款,從中央到省會再到各市縣區;自下而上則像是國家徵稅,就是從各市縣區、各企業層層彙總,直到報送國庫。

06

優化

分析的最終目標無非兩種:尋找解決方案,尋找更好的解決方案。第一步是保證數據的準確性和穩定性,第二步就是優化,提高準確性、提高效率和效益。

優化包含兩部分的內容:縮小當前和目標的差距,直到達成並超越目標;在成本或者預算固定的前提下,使收益最大化。

6.1

縮小當前和目標的差距

e.g. 全公司各部門各業務線的同事們都在追逐和超越KPI的路上;

e.g. 機器學習建模時,嘗試多種方案,調試各種參數,使模型的精確度逐漸提高


數據分析常用6種分析思路


6.2

成本固定,最大化收益


數據分析常用6種分析思路


e.g. 對於信用貸款產品而言,如果把“最安全”放在首位,那麼極端的方式就是不給任何人發放貸款,這樣就不會出現壞賬了。正確的信貸模型思維是將壞賬控制在業務上可以接受的範圍內,並使利息覆蓋壞賬,進而最大化收益。

任何商業模式都是追逐利益的,首要目標是收益最大化,參考如下公式:

利潤 = 收入 - 投入成本 - 風險損失

優化的過程就是尋找利潤最大化的過程。

小結:

以上總結了常見的6種數據分析思路,涉及具體的業務場景還要結合業務特點適當變通。精通方法,深入業務,勤於實踐,多加總結,最終就能踏上描述-->解釋-->預測-->控制,步步高昇的數據分析師精進之路。


數據分析常用6種分析思路


數據分析常用6種分析思路


分享到:


相關文章: