![年薪30萬門檻最低的方式-AB測試](http://p2.ttnews.xyz/loading.gif)
你瞭解AB測試嗎?
這是互聯網從業人員經常面對來自於領導和麵試官的靈魂拷問了。
如果你回答:
“把用戶分為兩撥兒,一撥兒依然使用舊版本產品,另一撥兒測試新版本產品,最後比較兩撥兒人的指標,比如轉化率,人均利潤等等,看哪撥兒用戶的指標結果好,就說明哪版產品更好,為後續產品更新迭代提供數據支持。“
那麼,面試官一定會露出尷尬而不失禮貌的微笑。
這個答案吧,對倒是對的;
但是對於一個專業的互聯網從業人員而言,卻又太太太膚淺啦!
- 如何進行流量分桶和分層?
- 如何確定實驗的最小樣本量?
- 想做AB測試的組那麼多,總不能讓大家排隊吧?
快跟著我,瞭解一下~
![年薪30萬門檻最低的方式-AB測試](http://p2.ttnews.xyz/loading.gif)
為什麼要進行AB測試?
假如我們公司有一款交友軟件。
老版本中是多用戶展示,你喜歡誰就點進誰的頭像,看他的主頁,再添加好友聊天,很受產品小姐姐的喜歡。
我們現在有了一版新的設計,新版本加入了手勢元素,喜歡就右劃,立即可以添加為好友,極大地簡化了交友流程,很受研發小哥哥的喜愛。
這兩版設計,到底哪個會更受用戶歡迎呢?至於KPI嘛,哪版能讓DAU更高,ARPU更高,或者Retention更高呢?
那麼問題就來了,到底選哪個版本呢?
總不能,聽產品經理的吧?
AB測試的分桶
這個時候,我們就需要進行對比實驗啦。
設計一種Hash算法,把流量按照Hash值分成n個桶(bucket),每個桶中都包含1/n的流量。
Hash算法保證了每個桶中用戶都是在同一時間維度,且具有特徵相似屬性。
時間的統一性有效的規避了因為時間、季節等因素帶來的影響,而屬性的相似性則使得地域、性別、年齡等等其他因素對效果統計的影響降至最低。
這樣一來,產品設計就變成了AB兩組用戶中的唯一變量,如果最後B版的用戶反饋比A版好,那我們就有很大的信心說,B比A好,上B!
AB測試的應用場景除了產品改版外,還有很多。
比如:
- 市場營銷人員的話術文案對比;
- 用戶研究人員的人群特性對比;
- 運營人員線上產品功能點對比;
這些場景通過科學的AB測試都可以得出用戶更加偏愛的方案,幫你完成KPI,轉型CEO,贏取白富美,走上人生巔峰。
AB測試的分層實驗模型
想做AB測試的組那麼多,如何讓眾多的AB實驗同時進行,且互不影響?
在實際工作中,往往有很多部門的業務人員希望在同一時間進行AB測試,該怎麼排期呢?
總不能讓大家排隊等著吧?畢竟互聯網行業瞬息萬變,等著UI算法文案設計挨個做完Test,公司估計都耗到倒閉了...
解決辦法當然是有的,就是大家同時做AB測試咯!
只要保證各個實驗之間,具有正交性。
並行隨機分流,瞭解一下?
分層實驗模型可以達到採樣相似性,採樣代表性和流量共用性。
在並行實驗區域,不同的實驗屬於不同的層,每個實驗內部又可以劃分為多層,每層之間互不干擾,並且每層流量被重新打散,從而實現每層之間流量的正交性。
第二層中每個實驗(experiment)的流量,是由第一層實驗中的流量均勻隨機分配而來的,這樣就能保證,第二層的用戶,都受到了來自第一層同樣的影響。
換言之,第二層的用戶依然都滿足了每個桶中用戶都是在同一時間維度,且具有特徵相似屬性。
不論你想做多少個實驗,只要按照“並行隨機分流”的方式不斷向下延伸層數就可以了,互不干擾,效率感人。
UI算法和文案,終於可以一起上。
緊隨最IN的節奏,輕鬆完成KPI。
上項目 - 實統計戰
對於一個實驗來說,最理想的情況,就是在一個可接受的顯著性水平下,儘量使用較少的樣本,最大化統計檢驗的Power。
嗯... 說人話行嗎?
最大化AB實驗可靠性的概率,同時把研究成本,實驗時長,所用流量控制到最小。
於是,產品經理和數據分析經理確認瞭如下幾個問題。
- 當KPI(比如DAU)變化2%時,認為AB兩組實驗有明顯差別;
- 在2%的提升度下,希望有90%的把握檢測到異常;
- 希望有95%的把握,不要誤報AB測試的差異顯著。
“沒問題,安排!”
將業務要求轉化為統計術語:
即靈敏度(提升度)E=0.02*歷史均值,
功效Power=0.9;
置信度為0.05。
根據最小樣本量的計算公式,可到得到這個業務的實驗要求每個實驗版本的最小樣本量。
如果業務方感覺實驗要求的樣本量太大,短時間難以實現,那麼適當的降低靈敏度,置信度和功效,就可以Balanced解決這個問題哦!
至此,面試官的臉上終於露出了“真誠”的笑容,“同學,看你講的提綱挈領,從算法結構到統計公式都深入淺出,資料給我一份,好吧?“
當然沒問題!
閱讀更多 小白學Python 的文章