辨析|如何規避大數據的五大誤差

  現在大數據離生活越來越近,我們也越來越依賴大數據做決策。但也有一種聲音表示,大數據這東西看起來挺好,但有時也會誤導我們。這可不是說大數據本身有什麼問題,它是沒問題的,有問題的是我們採集數據的方式。一旦這個過程出了問題,大數據反而會幫我們的倒忙。那採集數據的時候究竟可能會出現什麼錯誤呢?

  第一種錯誤叫選擇誤差,如果選擇的樣本不平均,就會出現這類錯誤。比如說,美國大選前都要做民意測試,但根據這種方式預測的結果並不準確,因為測試的方式有問題,調查民意時需要選民支付30美元才能參與,能來支付這筆錢的人也許是熱衷政治,也許是中產階級,總之不能代表全民的平均水平。這類錯誤還有很多其他案例,比如說在機場做消費問卷調查就可能有偏差,因為坐飛機的人相對來講比一般人更富裕些。所以說,一旦選擇的樣本出錯,那得出的結論肯定有問題。

  第二種錯誤叫倖存者誤差,就是說,選擇的樣本里有過高或者過低數據,那得出的結論就會有問題。打個簡單的比方,一個屋子裡如果坐著姚明,那屋子裡人的平均身高肯定就會偏高嘛。美國的一所大學曾經有個報告,說他們學校地理系的畢業生平均年收入水平最高,這就很讓人費解了,因為地理系不是這個學校的熱門專業,也不是社會上的高薪職業,怎麼會出現這樣的結果呢?原來啊,這是因為,NBA超級球星喬丹就是這家學校地理系畢業的,他一個人就拉高了整個學校的平均水平。所以,為了避免出現這種倖存者誤差,有時候做統計往往要去掉一個最高分,去掉一個最低分,再把平均下來的分數作為最終得分。

  第三種錯誤叫回憶誤差。什麼意思呢?就是說,你選擇的數據樣本,會受到大腦回憶的影響,從而產生誤差。這個誤差的形成完全是心理作用,我們都願意將現狀理解為過去發生的必然結果,就是喜歡把現狀和過去用因果關係對應上,尤其是對一些特別糟或者特別好的情況。比如說,哈佛大學曾經做了一個心理實驗,找來一組患有乳腺癌的女性,還有一組健康的女性,讓她們共同回憶自己早年的飲食習慣。結果發現,那些患病的女性回憶過去的時候,覺得自己攝入的脂肪含量比實際上要高很大一截,但健康女性那組就沒出現這種情況。這就是回憶誤差。如果你根據這個研究得出結論:患乳腺癌的婦女在年輕的時候攝入了太多的脂肪。那就太荒謬了。

辨析|如何規避大數據的五大誤差

  第四種錯誤叫健康用戶誤差,這個說法源於一個邏輯比喻,就是每天按時吃維生素片的人身體更健康,但並不代表吃維生素這個舉動就可以完全決定一個人是否健康。比如說曾經有個研究證明,幼年時期穿紫色睡衣的孩子,長大後成才的概率更高,98%的哈佛畢業生在小時候都穿過紫色睡衣,因為紫色更有助於幼兒大腦發育。這種說法聽起來很有道理,數據看起來也無法反駁,但事實上犯了健康用戶誤差這個錯誤,最終能決定一個人成功的因素多種多樣,年幼穿紫色睡衣可能只是其中很小的一個。

  如果你逃過了以上四個錯誤,還有第五個最不容易察覺的在等著你,叫發表錯誤。以上那些都是我們在選擇數據樣本或者數據分析時容易犯的毛病,而最後一個卻跟發表研究成果的“潛規則”有點關係。從認知角度講,人們更喜歡正面的結果,所以傳播領域也傾向於發表這樣的東西。比如說醫學界研究玩遊戲和患結腸癌之間的關係,抽樣調查了100個數據,前99個數據都是沒什麼關係,但有一個數據顯示可能有點聯繫,從傳播的角度來看,99個沒有關係的數據沒什麼可吸引眼球的,但如果說玩遊戲可以在一定程度上預防結腸癌,相信會有更多人願意看到。所以說,發表錯誤的問題不在於數據本身,而是你向公眾傳達的時候會以偏概全,這也是為什麼現在打開網頁滿屏幕都是標題黨的原因了。

  大數據處理信息服務商金盛網聚認為,大數據樣本的選取要求我們使用正確的採集和對待數據的方式。只有做到正確抓取和利用數據,我們才能通過數據樣本提供的各種線索,接觸到事物的本質和真相,進而為我所用。大數據的基礎在於,以事實為依據,以客觀為追求,儘量避免“取悅”式的結論發表。因為“片面強調”有悖於大數據發展的初衷,沒有普世價值的結論無法為受眾提供核心價值。


分享到:


相關文章: