數據有毒?來看看我們數據分析過程中的那些坑

我在很多場合經常聽到有人說:數據有毒

其實,有毒的不是數據,而是我們不懂的分析數據,只知道看表面的數據,沒有理解出數據背後的東西。

我在書友會和書友們說:很多的時候,如果你沒有跟著我學數據分析的時候,你憑藉著你的經驗和第一直覺做可能你還會做的更好一點,但是如果你跟了我學數據分析之後,可能你反而會做的越來越差?

因為有很多人他第一直覺和經驗其實比較好的,不聽數據分析他做的決策反而可能正確一些,但是自從他聽了我的數據分析之後,他開始不相信自己的直覺和經驗,他只相信數據了,特別是看到那些直觀的圖表的時候,他更願意去相信數據,可是遺憾的是他只看到了數據表面的東西,並沒有把隱藏在數據背後的東西挖出來了,所以他反而讓數據表現的東西給誤導了,做出了錯誤的決策。

我們來看看那些經常因為數據誤導我們的案例,這裡先舉一個例子,很多人經常會去分析關鍵詞的人群畫像,下面這個數據來自的是“長袖T恤女”這個關鍵詞的數據

數據有毒?來看看我們數據分析過程中的那些坑

從這個數據我們可以看到的是18-25歲的人佔比最高。所以很多人說,這個關鍵詞背後搜索和喜歡的人群是18-25歲

其實,如果你說關鍵詞背後搜索人數最多的是18-25歲,那麼這句話肯定是對的,這數據也肯定能說明的,但是你沒辦法說明長袖T恤最受歡迎的人群是18-25歲

數據有毒?來看看我們數據分析過程中的那些坑

我們再來看一個圖,這個圖是2015年6月和2016年6月網民的年齡結構分佈圖,當然,很遺憾的是我沒找到今年淘寶網民年齡的結構分佈數據。但是從上面這個圖裡面我們可以看出40-49歲的網民只佔了總網民的百分之13%左右,而這個數據還是網民數據,不是淘寶用戶的數據,淘寶用戶的數據只會比這個數據低很多,因為現在很多40-49歲的人都會玩微信,他們算網民,但是這裡面有很多的人從來是不淘寶購物的,他們就算不上淘寶用戶,特別是廣大農村地區,這個年齡階段的人用微信的特別多,但是用淘寶的非常小,

這個時候我們再回過頭來看第一個數據,搜索長袖T恤女這個關鍵詞佔比最多的人群是18-25歲,但是這個只能說明搜索這個關鍵詞人數最多的是18-25歲人群,並不能說明長袖T恤在18-25歲的人群裡面更受歡迎。因為本身這個18-25歲人群在淘寶用戶中基數就是最大的,同樣的我們再看,40-49歲的這個人群,他雖然只佔比16%,比起其他的年齡階段來說人群佔比算比較低的,但是他在淘寶用戶這個人群中佔比也是非常小的。如果這個數據換一種表達方法,就是每個佔比只以各自的年齡階段為基礎,那麼估計40-49歲的數據就要比18-25歲的數據大很多了。

我們繼續來看另外的一個案例,很多人都喜歡做市場容量的分析圖,去分析市場的容量,他會把過去一段時間的支付金額做成餅圖,然後分析根據這個圖的佔比來分析他的市場容量

數據有毒?來看看我們數據分析過程中的那些坑

例如,我們在圖上看到褲子的市場容量佔比是10%,而T恤的市場容量佔比是8%,如果從表面上來看,褲子的市場容量是比T恤要更大,但是如果你仔細瞭解一下背後的數據來源你可能就會有不一樣的答案,褲子的數據是有打底褲,休閒褲,西裝褲,棉褲/羽絨褲等多個子類目組成,而T恤下面並無子類目,他的所有數據都是來自T恤這個子類目,而且,T恤主要是集中在夏季這一個季節,到了冬季的時候,雖然也有長袖T恤,但是那個佔比已經比較少了。而褲子不同,長褲,短褲都是褲子類目,除了牛仔褲外,其他的子類目褲子都是在褲子這個類目,因此,如果你完全根據這個數據的大小去選擇市場容量的話,你可能就會出現問題

有些人在選擇市場切入的時候,喜歡選擇這種數據大的市場容量的市場,不會去選擇數據小的市場容量的市場,他們認為數據小的說明沒有市場。

其實,這裡面也是會經常誤讀的,例如上圖,有一個抹胸市場容量佔比是0%,可能很多人會覺得這個類目沒有什麼市場,不值得的去做。

數據有毒?來看看我們數據分析過程中的那些坑

但是你搜索抹胸這個關鍵詞然後按照銷量排名,你覺得這個市場容量會小嗎?

很多的時候我們就是容易讓數據表面給誤導,例如抹胸我們做的圖之所以市場容量為0%,是因為第一個我們統計的數據是按照支付金額統計的,而抹胸因為客單價非常低所以他的支付金額特別比較低,可能三四件抹胸的都沒有一件T恤的價格高,這也就導致了他的支付今天看起來比較低,如果你換成的是成交件數,那麼肯定你就會得出另外一種結果,另外,0%不代表是真的0,而是因為四捨五入最後的結果是0%。0.4%的結果也是0%,可能很多人還是會說0.4%還是比較低,其實,低和高要看你的基數有多大,如果你的基數是100000億,那麼這個0.4%的數量也不少了的。

繼續再來看一個例子,我們在優化標題的時候都喜歡去看關鍵詞的搜索指數,很多人只要看到搜索指數低的人就認為是沒有人在搜索,這種詞就不應該用

數據有毒?來看看我們數據分析過程中的那些坑

例如大家看到上面這個圖,可能很多人會覺得這個詞帶不來流量,因為都沒有人搜索,而我曾經有一個寶貝前期就是靠這個關鍵詞帶來流量的,雖然每天沒有太多,就那麼幾十個,但是,因為這個詞特別精準,我的寶貝竟然每天能成交那麼一兩單,對於前期來說,這個數據已經非常好了。

其實,這個也是很多人對數據沒有去了解他背後造成原因導致的結果,他把搜索人氣零當成了是沒有人搜索,其實根本就不是這個意思,搜索人氣是根據統計週期內的用戶搜索人數擬合出的指數類指標,也就是說,這個數據讓淘寶處理了,0只是代表他趨勢很小,相對其他的關鍵詞來說,他的這個搜索人數可以忽略不計。但是並不代表他完全沒有搜索,中國好幾億的淘寶用戶,每天如果只有幾十百來個人在搜索,這個數據相對於整體來說基本可以忽略不計,但是如果沒有人和你競爭,那麼這幾十百來個流量也就是你一個人了,對於很多新店鋪來說,前期每天能有幾十百來個流量也是好的,最關鍵的是因此詞精準,轉化率高,雖然每天只能帶來一兩單,但是相對那些一天一單都帶不來的商家,這個數據也算好的。

舉例了這麼多,其實都只是想說明一個點,在分析數據的時候,一定要重點分析的是數據背後的東西,他是怎麼造成這個數據的,要從多個維度去分析數據。而不是簡單的只看看錶現的數據,然後根據表面的數據就下決定。



分享到:


相關文章: