數據產品經理:從歸因模型延伸到轉化漏斗

歸因是個有意思的問題,許多領域都在研究,比如心理學中就有“基本歸因錯誤”(Fundamental Attribution Error,FAE);而廣告和金融領域更是對歸因進行了深入研究,來輔助廣告主和投資人獲得更大的收益,避免損失。

数据产品经理:从归因模型延伸到转化漏斗

一、歸因問題

在前一篇《數據產品經理:6大數據分析平臺的“世界觀”》中主要講解了6個數據分析平臺的數據模型,這6個平臺都是大家耳熟能詳的,特別是對於中小型企業和團隊,在保證數據分析效果的同時,能有力的減少創業初期階段在數據上的成本投入。

但在結尾的地方,我們留下了一個沒有展開的問題——歸因。

事情是這樣發生的:

我們使用了LinkedIn經典的“魔法數字”案例,也就是“1周內增加5個社交好友的用戶更容易留存”。

但是這個結論是如何的出來的呢?

1周內可能發生很多事情,比如用戶年齡段的改變、地理位置的改變、偏好的改變等等,我們是如何將最終的留存率“歸功於”社交好友數量的呢?而且這5位社交好友是否同等重要呢?

這就是歸因問題。

歸因的正面作用,它可能是全部數據分析要解決的唯一問題——解釋“為什麼”,但反面作用,歸因不當將會摧毀整個分析的可信度。而且,很可能我們從原始數據的收集和整理方法中,就已經定下了一個大敗局——終將“潰於蟻穴”。

為了解決這樣的問題,在數據平臺上通常會提供幾種歸因的方案供客戶選擇:

1. 首次互動歸因模型

也就是用戶第一次做某件事,在數據中通常表現為時間最早、順序號最小等等。當然,這是理想情況。在現實中由於種種原因,我們無法從用戶的最終轉化一直向前追溯,直至真實的“首次互動”。遇到這種情況,也就只好採用能追溯到的、並且與業務相關的首次行為了。

比如:在用戶的一次購買轉化中,我們可以用訂單號追蹤;沒有訂單號,可以用賬號;賬號沒有,可以用訪問會話(Session ID);會話沒有,可以用設備ID;如果實在是什麼都沒有了,那麼用戶以前的行為,我們只好當它不存在。

2. 最終互動歸因模型

也就是用戶最後一次做某件事,對應的在數據中就表現為時間最近、順序號最大等等。同樣,在最終互動中也存在“數據問題”——直接訪問流量(Direct Traffic),也就是那些找不到前置行為卻完成了轉化的流量。為了排除它們的干擾,有時也採用

最終非直接互動歸因

3. 線性歸因模型

也就是平均分。比如前面的LinkedIn的例子,如果用戶添加了5個社交好友並留存下來,那麼前面的5個社交好友“同等重要”,全都是促成最終結果的重要因素。

4. 加權歸因模型

也就是給多個促成因素分配一定的權重。

比如:如果用戶從某商城中看了許多商品才下單,在訂單頁點擊了提交按鈕,在支付頁點擊了支付按鈕,在訂單完成頁點擊了查看訂單詳情按鈕。一套動作下來,這筆訂單應當歸功於那個按鈕呢?

顯然在隨意瀏覽的過程中,點擊行為沒有那麼重要。相比之下,後邊的三個按鈕就重要得多。

那麼怎麼定權重呢?前面的線性相當於等權,還有時間衰減模型、U型/W型/Z型模型。這方面文章很多,不再展開。

以上幾種方法是比較簡單易懂的,而且可以想象計算量與計算複雜度都不大。但是對於歸因這麼重要的一件事,只有這些簡單粗暴的辦法麼?

當然不是。

比如下面這個:

5. 馬爾科夫歸因

這是把用戶的轉化行為比作“馬爾科夫鏈”,來計算各個狀態之間的轉化概率。簡單來說,就是“明天只與今天有關,而與昨天無關”。這樣,我們也就可以計算出用戶轉化路徑中的各個步驟之間的概率,並最終算出權重。如果我們用這個權重來代入前面的加權歸因,是不是瞬間感覺高大上了麼?(如果對概率論還有印象的同學,可能會想起一個十分類似的東西——貝葉斯公式。)

二、歸因模型的選擇

Well,不知道各位小夥伴是什麼感覺,反正我每次看到這種“N種方法”的狀況是很頭疼的,究竟怎麼選呢?

這是個問題。

我們曾介紹:GrowingIO只提供了兩種歸因模型——首次和最後(在手冊中“埋點事件”的“歸因方式”一節,參考:https://docs.growingio.com/docs/),而Google Analytics for Firebase則提供了歸因模型。

至於其他沒有“明說”的平臺,為了節(lan)省(ai)時(wan)間(qi),我是沒有驗證。

這樣看,似乎不同的平臺都有自己在模型上的取捨。那是否存在一套通用的模型呢?為什麼我們不直接採用看上去就很高大上的馬爾科夫鏈,而還是要用最簡單粗暴的歸因方式呢?

這裡主要考量兩個因素:

1. 業務形態

說是業務形態,但其實是個比較抽象的概念。落實到數據上,就是我們究竟能拿到什麼樣的數據。(數據內容是《數據產品經理:6大數據分析平臺的“世界觀”》這篇的主題,有興趣的同學可以翻回去看看)。

第三方平臺通常以行為分析為重,但與業務相關的數據就不那麼容易拿到了,比如商品ID、交易金額、支付渠道等等。

因此:即使我們把事件模型收集到的數據拼成一個長長的鏈條,但是除了直接導致最終轉化的這個環節以外,前面的環節很可能根本沒有上報業務相關的數據,或者上報的信息不完整、不準確。所以我們可以輕鬆地追蹤行為,卻不太容易從促成轉化的角度追蹤所有相關的行為,除非詳細地配置了各種自定義事件。

因此,除非在業務形態(產品形態)上以用戶行為為主(比如短視頻類的瀏覽、點贊、收藏、轉發),否則只好在歸因方面採用相對簡單的歸因方法。

而企業內部的數據則更加貼近自己的核心業務,可以方便的拿到核心業務數據。這就適合業務形態(產品形態)比較複雜的情況了。我們也可以相對容易地追蹤到促成轉化的整個流程。比如電商中的“逛”就是個挺難分析的過程,還有金融中的投資行為等等。它們都需要與業務數據深度結合進行分析,也適合使用相對複雜的歸因模型。比如用來分析投資組合的Brinson模型。

2. 計算量

第二個要考慮的因素就是計算量。計算量主要來源於兩個方面:數據量與計算複雜度。

數據量比較好理解,典型的數據量爆發場景,就是每每有企業自豪地宣佈日活數據、留存數據、交易額/交易人數等數字的時候。這些數字的背後,都是浩如煙海的數據內容。

那麼什麼叫計算複雜度?這個概念可繁可簡。比如,我們拿到的數據是3和10兩個數字,你來體會一下心算“3×10”與“3的10次方”之間的區別吧,大概就是這個感覺。

三、歸因的延伸

前面講到的基本都是歸因模型的直接應用,也就是“給轉化找原因”。

但是既然我們說了歸因是分析的全部目的也不為過,那麼歸因模型也應該有一些延伸應用。比如看看下面這個問題:

既然歸因是給轉化找原因,而說到轉化大家一定會想起漏斗模型,那麼歸因與漏斗之間是什麼關係?還有前面提到的轉化路徑,難道不是漏斗麼?嗯……我已經表達過對於N多模型的厭惡之情,所以這幾個之間的關係一定要弄明白。

我們從各種數據採集中得到的信息是很有限的,它們不會超過我們預先能想到要看的那些指標,包括頁面上元素的曝光、點擊、滑動等基本行為,以及與業務相關的發佈內容、拍攝視頻、點贊、收藏、下訂單、完成支付等等行為。即使是“無埋點”方案,能夠採集到的內容也是預先設計好的,並且是更基礎、更通用的指標。

很顯然,這些基本的指標決不能跟“用戶行為”劃等號,充其量是用戶行為的子集,並且是很小的一個子集。這其中有技術問題,有認知問題,有各種各樣的問題。那麼用戶行為到底是什麼樣的呢?

其實這個問題不重要,重要的是,我們究竟關心哪些行為。這就是漏斗。

在當今的分析中,大多數人會採使用轉化漏斗,來描繪一個對於業務或產品來說最關鍵的路徑。用戶在這個路徑上如何流動,決定了業務或產品是否存在問題、是否還有發展空間。而這個轉化漏斗背後,則是一個價值產生的過程(消費、投資、……),或者是用戶的一個心理過程(學習、表達、……)。

所以雖然都是行為,漏斗與行為軌跡的出發點就是不同的——漏斗是業務或產品的角度,行為軌跡是用戶的角度。兩個往一起一碰,這就有意思了——我希望用戶趕快買,但是用戶就是轉轉悠悠的不下單。TA在幹什麼呢?拼出來一個行為路徑看看TA到底在幹什麼。

總結起來,漏斗是從業務或產品自身的形態出發,在所有用戶可能產生的行為路徑中,尋找出真正重要的節點;而歸因則是將漏斗進行橫向拆解,研究促成每一個節點的真正原因是什麼,以及如何加強。

比如下面這張圖,綠色圓圈才是我們的轉化漏斗,與藍色箭頭則找出了每一段的“直接因素”。當然,這畫的是理想情況。如果我們的產品設計出現問題了,則會看到越來越多的用戶經過了其他的路徑。

数据产品经理:从归因模型延伸到转化漏斗

不知道你有沒有這種感覺,面對表現不佳的漏斗,只能乾著急而不知道從何下手。因為漏斗本身就不太具備可操作性(Actionable),畢竟節點是你選的,除非你承認自己選錯了。而行為路徑和歸因則給漏斗模型補上了可操作性。

所以真的有很多模型要學麼?我沒覺得。

這個話題我們放在下一篇,嘿嘿……

&npsb;

題圖來自Unsplash,基於CC0協議。


分享到:


相關文章: