從粉絲破萬到數據道德

今天有兩個消息,一個好消息,一個壞消息。

好消息是:

從粉絲破萬到數據道德


壞消息是:

從粉絲破萬到數據道德


僅僅用了一個檢查元素就修改了網頁顯示內容。

所以,其實很多東西都可以完全不用PS,卻完美地修飾對嗎?

最近逛知乎,看了幾篇如何公眾號增粉的文章(嘿嘿,畢竟公眾號剛開始運營,關注的人不多),偶然間識破有人用此法在知乎瞎扯寫文章,收穫粉絲無數。

思緒一下子回到多年以前,當時在51信用卡論壇,有人卻真的用此法研製成了刷信用卡直接秒到借記卡中,配合銀行的滿減,再擼一把積分,妥妥得賺了不少。更NB的要數:一行代碼打開網頁用阿里的支付寶付款,錢卻秒到了騰訊的財付通裡,再免費提現到借記卡中,嘖嘖……

俱往矣,今天來說一說數據道德的問題。


數據的價值越來越凸顯的今天,如何從數據中得到準確有價值的信息同樣越來越重要。

俗話說一圖勝千言,數據可視化在數據分析中佔有舉足輕重的地位,而數據可視化也是“騙人”的重災區。

從粉絲破萬到數據道德


上圖為例,乍一看,這位球員2013年相比2012年的投球速度斷崖式下滑了一半。從他憔悴的面容和凸出的啤酒肚上我們可以大致猜測他的感情生活遭遇了不幸,可能每日通過酗酒來渡過,究竟是什麼原因呢,妻子出軌?兒子DNA檢驗不是他的?

但是如果我們定睛一看,75.3相比77.3只下滑了2,根本是微不足道的。

這一類的例子數不勝數,包括本人實際工作中也曾無意犯過這樣的錯誤。

比如勝率:

從粉絲破萬到數據道德

GDP趨勢:

從粉絲破萬到數據道德


二八法則

當年美國算是平穩渡過經濟危機後,奧巴馬說“我國經濟 09 年以來增長 13%”的時候,他沒有告訴你其實美國人只有最富的 1% 收入增長了——剩下 99% 的人收入反而比之前下降了。

會出現這種情況是因為收入不是正態,而是冪律分佈的(即大家常說的 “20% 擁有 80% 的財富”)。所以最富人群的收入變化對經濟總量影響最大,而剩下大多數人的收入變化對總量幾乎沒有影響。

從粉絲破萬到數據道德


辛普森悖論

做數據分析的學過統計學應該都聽過這個悖論。我們做個案例:

小明生了慢粒白血病,她的失散多年的哥哥找到有2家比較好的醫院,醫院A和醫院B供小明選擇就醫。

小明的哥哥多方打聽,蒐集了這兩家醫院的統計數據,它們是這樣的:

醫院A最近接收的1000個病人裡,有900個活著,100個死了。

醫院B最近接收的1000個病人裡,有800個活著,200個死了。

作為對統計學懵懵懂懂的普通人來說,看起來最明智的選擇應該是醫院A對吧,病人存活率很高有90%啊!總不可能選醫院B吧,存活率只有80%啊。

嘿嘿,如果小明的選擇是醫院A,那麼她就中計了。我們來看:

從粉絲破萬到數據道德


單獨看嚴重病患的存活率,B高,單獨看不嚴重的存活率,還是B高,但是總的存過來卻是A遠遠高於B。

這就是統計學中著名的黑魔法之一——辛普森悖論(Simpson's paradox)。辛普森悖論最初是英國數學家愛德華·H·辛普森(Edward H. Simpson)在1951年發現的。

辛普森悖論就是當你把數據拆開細看的時候,細節和整體趨勢完全不同的現象。

從粉絲破萬到數據道德


從統計學家的觀點來看,出現辛普森悖論的原因是因為這些數據中潛藏著一個魔鬼——潛在變量,比如在上面這個例子裡,潛在變量就是病情嚴重程度不同的病人的佔比。


數據欺騙操控輿論

其實上面的數據可視化分析都是為了闡明自己的觀點而有意無意造成的,也都可以理解。

但是很多數據或者結論卻是直接用來操控輿論走向,歷來如此,但是最近的很多新聞尤甚。

3月28日荷蘭國家電視臺NOS發佈一條新聞表示從中國進口的具有KN95質量合格證的口罩沒有達標。部分口罩不能完全貼合面部,其他的濾芯達不到FFP2防護級別。

同樣,3月份捷克向中國訂購了15萬套的病毒快速測試劑,當地衛生專家23日指責說:指試劑錯誤率高達80%。

【這件事被各種外媒轉載】

然後同一天晚些時候,捷克防疫工作負責人、衛生部副部長澄清:快速檢測不是結論性,而是指示性的;檢測的錯誤率並不如這位衛生學家所說的高達80%,而只有20%-30%

【這個聲明沒有幾家外媒轉載】

4月6日西班牙政府從中國訂購了4.3億美元的醫療物資,包括64萬套檢測工具,首批運抵5.5萬支試劑部分檢測準確率僅30%,遠低於預期的80%,當地衛生部已下令停用,並表明將退貨。

【這件事被各種外媒轉載】

然而,西班牙衛生部隨後聲明:該快檢試劑盒供應商擁有合法的歐盟CE認證,因此可以在西班牙合法銷售。

【這個聲明沒有幾家外媒轉載】


所以,你看,數據本身是一回事,讓數據以一種什麼樣的形式出現卻是另外一回事。需要的是我們擦亮眼睛,學會識破統計數據中的一些常見小把戲。當然,更需要注意的是,上述幾種只是最為常見與簡單的統計小把戲,在更低的統計中,還有更多高深的把戲,這需要我們以更為專業的知識去識破他們。


從粉絲破萬到數據道德


分享到:


相關文章: