那些讓你遍體鱗傷的數據陷阱

那些讓你遍體鱗傷的數據陷阱

那些讓你遍體鱗傷的數據陷阱

做產品,基本繞不開各種數據和統計分析。從需求調研,到上線迭代,工作彙報,宣傳推廣各環節都需要和數據打交道。在這些數據背後都隱藏著各種陷阱,一不小心就會趟坑了,當然如果有一雙善於發現的眼睛可能會化險為夷,甚至化為己用。

有些數據陷阱是致命的存在,舉個具體的例子來說明下。

1941 年,第二次世界大戰中,空軍是最重要的兵種之一,盟軍的戰機在多次空戰中損失嚴重,無數次被納粹炮火擊落,盟軍總部秘密邀請了一些物理學家、數學家以及統計學家組成了一個小組,專門研究 “如何減少空軍被擊落概率” 的問題

針對此問題 聯盟高層和統計學家沃德給出2個截然不同的答案

當時軍方的高層統計了所有返回的飛機的中彈情況——發現飛機的機翼部分中彈較為密集,而機身和機尾部分則中彈較為稀疏,於是當時的盟軍高層的建議是:加強機翼部分的防護

沃德教授提出了完全相反的觀點——加強機身和機尾部分的防護

那麼這位統計學家是如何得出這一看似不夠符合常識的結論的呢?沃德教授的基本出發點基於三個事實是:

統計的樣本只是平安返回的戰機。

被多次擊中機翼的飛機,似乎還是能夠安全返航。

而在機身機尾的位置,很少發現彈孔的原因並非真的不會中彈,而是一旦中彈,其安全返航的機率極小,即返回的飛機是倖存者,那些被忽視了的非倖存者才是關鍵,他們已經墜機了!

那些讓你遍體鱗傷的數據陷阱

我記得第一次接觸這個案例時那種敬仰之心,油然而起!

數據採集

1 倖存者品偏差理論

就是典型的數據採集陷阱之一。比如在某一系列視頻追蹤分析,1-5集觀看播放量一直比較穩定,當時當第6集時,用戶量大幅下滑。這時候分析原因發現,不是第6集內容出現問題,而是第6集開始VIP會員限權觀看了。大量的普通會員無法觀看,導致播放量降低了。

2 沉默群體

那些讓你遍體鱗傷的數據陷阱

那些你沒注意就流失的客戶

現在做數據採集時,很大程度中在增加做定性分析而減少定量分析,定性是指對群體中特徵明顯的少數經典個體做調研,反推群體的部分特性。這是有效一種方式,但是需要明確這種方式存在缺陷。 定量研究除非有大數據的基礎,否則現在不太容易開展。尤其一些普世性的產品,用戶群體都是億量級別,做定量研究成本太高。

所以在做分析時一定要關注那些沉默群體。比如在研究商品下單支付轉化率時,一定要關注哪些沒有下單隻瀏覽就流失用戶群體,而不是隻看下單用戶和支付用戶群體。否則以分析結果導向去調整產品,會損帶無法預估的損失。

3 數據真實性

不論是第三方的平臺還是自己的問卷調研,常常會為了個人虛榮(收入虛高)、道德、政治正確等原因得到不準確的反饋信息。這也是一個不太好避免的數據陷阱。尤其是在調研獲取階段,必須直面數據真實性問題,如果只是對現有產品做調優,那麼數據是可靠的,只不過需要清洗而已。比較已經生成的數據是不會說謊的,比如頭條中用戶的閱讀行為數據。

視覺圖表

主要從圖形界面上給人誤導,尤其是趨勢走勢和數據統計2種。請仔細查看下面幾張圖對比。

折線圖 操作縱座標和橫座標的比例,讓你打開眼界。 縱座標,由10間隔改為100間隔。

那些讓你遍體鱗傷的數據陷阱

那些讓你遍體鱗傷的數據陷阱

這2張圖帶給人的視覺印象是有很大區別的,當你看到某些趨勢圖不可思議時請關注下縱座標,有貓膩等你發現。

餅圖 淡化部分數據,突出目標數據。如圖

那些讓你遍體鱗傷的數據陷阱

你會關注 47%

那些讓你遍體鱗傷的數據陷阱

你會關注 24% 是什麼內容

上面2種圖示對比 是不是打開了一個思維上的潘多拉魔盒?!

描述誤導

那些讓你遍體鱗傷的數據陷阱

  • 比例描述

有2種陷阱形式,一種是全國平均工資形式,叫做被平均。一個100W薪資和99個5000元的薪資,平均薪資為14950。普羅大眾的薪資直接被翻了3倍,開不開心?從地區統計彙報中就沒有低收入人群。這就是彙報作弊神器啊,

所以在查詢國家統計數據資料時一定要謹慎,或者查找下數據計算方式,以便獲取數據的內在內容。

還有一種比較神奇,那就是綜合百分比和實際效果不一致。

如 A 商品 訂單轉化率 35%;B 商品 訂單轉化率 42%

表面上看B商品的轉化率高於A。但是實際上A 投入轉化成本為0,而B投入轉化成本為大約2000萬人民幣,真實自然轉化率基本在15%左右。

這種撇開關鍵因素對比指標也是常見的數據誤導。

  • 主體模糊

如百分比,他不會反應分子分母各是什麼,這就導致可以在這裡做手腳。例如“質量提高了100%”,質量是什麼?相比什麼提高了100%?解釋權歸我所有。也有“降價50%之後再減20%”,看起來減了70%,實際上減了60%。

還有一些統計字段如果不瞭解很容易被誤導,比如電商裡常用的GMV(商品交易總額),一看數據好幾十億元。再看具體含義(成交金額包括:付款金額和未付款),真實有效的支付訂單額遠遠小於GMV的數據,數據好看而已。

還有一些用詞上的陷阱,其實不能算是陷阱,個人認為只可以說是用詞錯誤或者認知不對,比如翻N番,就表示2的N次方,謹慎使用。

一定要記住: 相關不等於因果

相關只是兩者在數理上有相關性,但是不能代表因果關係。二者有強烈相關性的東西的因果關係是複雜的,可能互為因果,也可能其中一方是因另一方是果。也就是說數據相關不能直接定性因果關係,一定需要新分析,再假設推定關係。

分享,關注是對我最大的支持


分享到:


相關文章: