辨析｜如何規避大數據的五大誤差科技頭條網

2018-01-20 21:58:47 金盛網聚

　　現在大數據離生活越來越近，我們也越來越依賴大數據做決策。但也有一種聲音表示，大數據這東西看起來挺好，但有時也會誤導我們。這可不是說大數據本身有什麼問題，它是沒問題的，有問題的是我們採集數據的方式。一旦這個過程出了問題，大數據反而會幫我們的倒忙。那採集數據的時候究竟可能會出現什麼錯誤呢？

　　第一種錯誤叫選擇誤差，如果選擇的樣本不平均，就會出現這類錯誤。比如說，美國大選前都要做民意測試，但根據這種方式預測的結果並不準確，因為測試的方式有問題，調查民意時需要選民支付30美元才能參與，能來支付這筆錢的人也許是熱衷政治，也許是中產階級，總之不能代表全民的平均水平。這類錯誤還有很多其他案例，比如說在機場做消費問卷調查就可能有偏差，因為坐飛機的人相對來講比一般人更富裕些。所以說，一旦選擇的樣本出錯，那得出的結論肯定有問題。

　　第二種錯誤叫倖存者誤差，就是說，選擇的樣本里有過高或者過低數據，那得出的結論就會有問題。打個簡單的比方，一個屋子裡如果坐著姚明，那屋子裡人的平均身高肯定就會偏高嘛。美國的一所大學曾經有個報告，說他們學校地理系的畢業生平均年收入水平最高，這就很讓人費解了，因為地理系不是這個學校的熱門專業，也不是社會上的高薪職業，怎麼會出現這樣的結果呢？原來啊，這是因為，NBA超級球星喬丹就是這家學校地理系畢業的，他一個人就拉高了整個學校的平均水平。所以，為了避免出現這種倖存者誤差，有時候做統計往往要去掉一個最高分，去掉一個最低分，再把平均下來的分數作為最終得分。

　　第三種錯誤叫回憶誤差。什麼意思呢？就是說，你選擇的數據樣本，會受到大腦回憶的影響，從而產生誤差。這個誤差的形成完全是心理作用，我們都願意將現狀理解為過去發生的必然結果，就是喜歡把現狀和過去用因果關係對應上，尤其是對一些特別糟或者特別好的情況。比如說，哈佛大學曾經做了一個心理實驗，找來一組患有乳腺癌的女性，還有一組健康的女性，讓她們共同回憶自己早年的飲食習慣。結果發現，那些患病的女性回憶過去的時候，覺得自己攝入的脂肪含量比實際上要高很大一截，但健康女性那組就沒出現這種情況。這就是回憶誤差。如果你根據這個研究得出結論：患乳腺癌的婦女在年輕的時候攝入了太多的脂肪。那就太荒謬了。

　　第四種錯誤叫健康用戶誤差，這個說法源於一個邏輯比喻，就是每天按時吃維生素片的人身體更健康，但並不代表吃維生素這個舉動就可以完全決定一個人是否健康。比如說曾經有個研究證明，幼年時期穿紫色睡衣的孩子，長大後成才的概率更高，98%的哈佛畢業生在小時候都穿過紫色睡衣，因為紫色更有助於幼兒大腦發育。這種說法聽起來很有道理，數據看起來也無法反駁，但事實上犯了健康用戶誤差這個錯誤，最終能決定一個人成功的因素多種多樣，年幼穿紫色睡衣可能只是其中很小的一個。

　　如果你逃過了以上四個錯誤，還有第五個最不容易察覺的在等著你，叫發表錯誤。以上那些都是我們在選擇數據樣本或者數據分析時容易犯的毛病，而最後一個卻跟發表研究成果的“潛規則”有點關係。從認知角度講，人們更喜歡正面的結果，所以傳播領域也傾向於發表這樣的東西。比如說醫學界研究玩遊戲和患結腸癌之間的關係，抽樣調查了100個數據，前99個數據都是沒什麼關係，但有一個數據顯示可能有點聯繫，從傳播的角度來看，99個沒有關係的數據沒什麼可吸引眼球的，但如果說玩遊戲可以在一定程度上預防結腸癌，相信會有更多人願意看到。所以說，發表錯誤的問題不在於數據本身，而是你向公眾傳達的時候會以偏概全，這也是為什麼現在打開網頁滿屏幕都是標題黨的原因了。

　　大數據處理信息服務商金盛網聚認為，大數據樣本的選取要求我們使用正確的採集和對待數據的方式。只有做到正確抓取和利用數據，我們才能通過數據樣本提供的各種線索，接觸到事物的本質和真相，進而為我所用。大數據的基礎在於，以事實為依據，以客觀為追求，儘量避免“取悅”式的結論發表。因為“片面強調”有悖於大數據發展的初衷，沒有普世價值的結論無法為受眾提供核心價值。

分享到:

閱讀更多 金盛網聚 的文章

關鍵字: 大數據哈佛大學數據