闢謠!那些廣爲人知的數據挖掘案例,其實都是大忽悠!

文 | 傅一平源 | 與數據同行

數據挖掘講究用數據說話,但很多喜聞樂見的案例並不像聽起來那麼美好,有些被神化了,有些言過其實,更有些是不可能完成的任務,為什麼會這樣呢?

最近搜刮了幾個典型案例,分別是啤酒與尿布、Google預測冬季流感、大數據預測紙牌屋、天氣精準預報、股市K線預測,希望看了後於你有啟示。

1、啤酒與尿布是數據挖掘最大的謊言

這個案例估計是數據挖掘界的頭號代表。

全球零售業巨頭沃爾瑪在對消費者購物行為分析時發現,男性顧客在購買嬰兒尿片時,常常會順便搭配幾瓶啤酒來犒勞自己,於是嘗試推出了將啤酒和尿布擺在一起的促銷手段。沒想到這個舉措居然使尿布和啤酒的銷量都大幅增加了。如今,“啤酒+尿布”的數據分析成果早已成了大數據技術應用的經典案例,被人津津樂道。

但據考證,所謂“啤酒加尿布”的數據挖掘經典案例,其實是Teradata公司一位經理編出來的“故事”,歷史上並沒有發生過,為什麼這麼出名,是因為Teradata公司是數據分析行業的領頭羊,商業利益的驅動而已。

如果以後碰到精彩的數據挖掘案例,一定得多點批判精神,要相信,百聞不如一見,一見不如重複,這是應有的科學態度。

2、Google預測冬季流感的最終結局是什麼?

谷歌流感趨勢(GFT)經常上頭條,因為其精準的流感預測。

2009年,Google通過分析5000萬條美國人最頻繁檢索的詞彙,將之和美國疾病中心在2003年到2008年間季節性流感傳播時期的數據進行比較,並建立一個特定的數學模型。最終google成功預測了2009冬季流感的傳播甚至可以具體到特定的地區和州。

2013年2月,谷歌流感趨勢(GFT)又上了頭條新聞,這次是壞消息。

闢謠!那些廣為人知的數據挖掘案例,其實都是大忽悠!

據 《自然》雜誌(Nature)報道,2012之前GFT預測準度還行,但之後預測精準急轉而下,其預測的流感樣疾病數量是美國疾病控制和預防中心(CDC)的估算數量偏差甚至高出了標準值將近1倍。

為什麼預測會失效?

一個可能的原因是過擬合問題,編寫一個將5000萬搜索關鍵詞與1152個數據點相匹配的算法是非常困難的,很有可能會出現過度擬合(將噪聲誤認為信號)的情況,很多關鍵詞只是看似與流感相關,但實際上卻並無關聯。

另一個可能的原因是算法並非一成不變的,算法會被服務提供者依照他們的商業模式而進行修改,而搜索引擎算法的改變和用戶的搜索行為會影響GFT的預測結果,比如媒體對於流感流行的報道會增加與流感相關的詞彙的搜索次數,進而影響GFT的預測。

因此,我們不僅要能研發出算法,更要能運營好算法,後者往往更顯功力。

3、紙牌屋與大數據到底誰成就了誰?

關於《紙牌屋》的大數據預測神話是這樣的:作為世界上最大的在線影片租恁服務商,Netflix在美國有2700萬訂閱用戶,在全世界則有3300萬,幾乎比所有人都清楚大家喜歡看什麼,它已經知道用戶很喜歡Fincher(社交網絡、七宗罪的導演),也知道Spacey主演的片子表現都不錯,還知道英劇版的《紙牌屋》很受歡迎,三者的交集表明,拍攝《紙牌屋》會大賣。

很快,《紙牌屋》的策劃過程就被暴露出來,事情是這樣的,沒啥大數據的事:

(1)獨立製片公司MRC(Media Rights Capital)準備進入電視圈

(2)為了解決劇本的問題,某年某月的某一天,他們和往常一樣在內部開了個會,探討如何執行他們的想法,即用電影導演來拍電視劇,從而打造具有轟動性效應的電視劇集,避開競爭更為激烈的電影業。此時,一名實習生跳了出來,推薦了英劇《紙牌屋》,對的,你沒聽錯,一名實習生,不是大數據。

(3)MRC看了1990年版本的英劇《紙牌屋》,就主動聯繫了版權方,簽下了《紙牌屋》的改編權,然後去找了CAA(好萊塢最大的經紀公司),組成了紙牌屋的核心孵化團隊,導演大衛·芬奇、編劇埃裡克·羅斯、凱文·史派西都是簽約在CAA。

(4)在完成了劇本孵化的工作之後,MRC和CAA去找了Netflix,Netflix提出了自己來投資製作的想法,並且開出了優厚的條件,比如不用試播便一次性定製兩季,總預算超過1億美金,製作團隊可以保有最終剪輯權等等(意思是製作團隊可以保有版權,這個誘惑最大)。

(5)2012年,喬納森·費蘭德開始擔任Netflix的首席聯絡官(CCO),此人之前是在迪斯尼工作,同一年,凱利·梅里曼(Kelly Bennett)加入了Netflix,這位原負責華納國際業務的高管擔任了Netflix的首席營銷官。正式通過他們兩個人的包裝,Netflix在大數據和《紙牌屋》之間建立了聯繫,就像我們所看到的那樣,Netflix成功的被定義為HBO和Showtime未來的榜樣,Netflix的股價因此飆升。

可以認為,是《紙牌屋》的成功宣傳了大數據,而不是大數據造就了《紙牌屋》,大數據只是Netflix在宣傳《紙牌屋》的過程中使用的噱頭,那麼,Netflix為什麼選擇大數據作為宣傳點呢?

因為,IT行業的一大特點就是替代傳統行業,通信,購物,金融等等,而Netflix想要取代的是HBO之類的有線電視臺,必須體現出差異化,大數據滿足了這個要求。

記得前幾年大數據處於風口,筆者也寫了不少大數據材料,也引用了很多吸引眼球的大數據案例,包括這個《紙牌屋》,但現在回過頭看,

大數據真要滲透進諸如影視這些垂直行業,路其實還遠著,與互聯網、金融、醫療等領域相比,這些行業無論從沉澱的數據量,多領域數據的關聯能力,技術底子看都太薄了。

大數據在各個領域的應用自有其演進的過程,不能奢望哪個領域突然就靠大數據起來了,即使有也是曇花一現,因為不符合事物發展的客觀規律。

4、天氣精準預測是不可能完成的任務

夏天浙江颱風頻頻,因此筆者很關心颱風的預測問題,其實氣象局告知颱風會來根本不是本事,因為你都看到了近洋海面的氣流,真正考驗預測能力的其實是颱風路徑和登錄地點,這個對防災疏離很有意義,但我們經常碰到的情況是,即使在臺風登陸前的幾小時,還確定不了到底在哪個地方登錄,後續的颱風路徑預測也是一變再變,為什麼預測不準呢?

何帆在解讀《超預測:預見未來的藝術和科學》一書中,給出了一個觀點,其提到與個人行為的可預測不同,複雜體系是不可預測的。

那麼,什麼是複雜體系呢?

你朝窗外望去,窗外的世界就是複雜體系。天氣、生態系統、金融市場、國際政治以及我們人類社會等等都是複雜體系,所有的複雜體系都是不可預測的。

最簡單的複雜體系是沙堆。你在假期的時候來到海邊,在沙灘上把沙子堆成一個金字塔形狀的沙堆。你有沒有想過,能不能把沙堆堆得越來越高,一直堆到月亮上去?顯然,這是不可能的。物理學家專門做過這個實驗。他們把沙灘上的沙子一粒一粒掉下來,然後用一個儀器記錄沙粒掉落的過程。他們發現,當沙子一開始掉落的時候,會自發地形成一個自組織系統,也就是說,當一粒新的沙子掉下來之後,原來的沙子都會自動地調整位置,形成一個更穩定的系統。

但是,隨著沙子繼續掉落,當過了一個臨界值之後,沙堆就會進入不穩定狀態。這個時候,你知道沙堆隨時可能會發生塌方,但是,再往上放一粒沙子,沙堆會倒塌呢,還是再往上放一千粒沙子,沙堆會倒塌呢?我們不知道,也不可能知道。

美國氣象學家愛德華·洛倫茲發表過一篇論文,題目叫:《一隻在巴西翩翩的蝴蝶可否在得克薩斯州引起龍捲風?》洛倫茲發現,使用計算機對天氣模式進行仿真的時候,數據輸入的細微變化都會導致不同的長期預測結果。初始條件的細微變化,將會帶來巨大的影響。

洛倫茲告訴我們,水汽聚集在微塵的周圍,就形成了雲。這聽起來很簡單,但是,某一朵特定的雲到底是怎樣形成的,會變成什麼形狀,取決於水滴之間複雜的反饋作用。所以,即使我們知道所有關於雲的形成原理的知識,也無法預測特定的雲會如何出現。

因此,複雜系統的預測是件很難的事情,最值得用心去訓練預測能力的領域,往往是介乎於鐘錶和雲之間的,也就是說,既不是可以完全精準預測的,也不是完全隨機的,因此,對於天氣、地震誤報漏報這類事情,還是要多些體諒。

5、不要嘗試用K線預測股價

吳軍在《谷歌方法論》提到中國股民對K線這類已知道的技術指標的好感在世界各國中是少有的,或許跟某些媒體的誤導有關,但不管是什麼原因,這種以K線為代表的技術指標坑了億萬股民,因為即使把它畫得更好,也不會有助於股民掙錢。

有些人會不服氣,總會找出一些例子,某某用一個技術指標掙到錢,但是那些人同時也忽略了大量的人賠錢的事實,股市上的狗屎運常常比我們想象的要多,但是很多人把這個叫做水平,把遇到狗屎運的人稱為股神,如果一個人連續10年每年投資回報比大盤好,你是否覺得他是股神?如果你的回答是肯定的,可能數學沒有學好。

大家隨機做股票交易,每一千個人中就可以出這樣一個“股神”,按照人的一般交往圈150人算,朋友的朋友就超過22000人,按照4%的炒股比例,也就是說在你的朋友的朋友中就有這樣一個股神,現在通信很發達,這樣一個很容易就被朋友的朋友知道了,假如你在一個較大的單位工作,聽見某某或某某的某某炒股發財是大概率事件,千萬別心癢。

即使換成20年,算一下概率,這種人在國內起碼有100人,因為每100萬人就會出這樣一個,這些人可能被邀請去做講座,教大家畫K線,當然,等你去畫,就沒了他的運氣。

從信息論的角度看,股票能否賺錢在於你擁有的信息的多少,你知道,別人不知道,你就能賺錢,但如果這些信息每個人都知道,比如K線,那麼它的作用早已反映在股市的波動中了,再用它就不靈了。

從另一個角度講,如果真有人掌握了股市的特有規律來預測,他做的事情不是開班講課掙講課費,而是悶聲發大財。最後一個發現特別靈的股票指標是著名投資人彼得.林奇發明的PEG(市盈率相對於盈利的增長率),彼得.林奇悶聲發大財從不告訴別人,創造了股市上不敗的神話,但是他四十多歲就收手了。

你會疑問為什麼你找不到這些指標,因為容易找的早被找完了,而其他的由於太複雜,根本不是散戶可以找到的,甚至專業人士都不行,事實上,全世界只有著名的對沖基金文藝復興敢說他找到了有用的信號,文藝復興公司裡面沒有搞金融的人,全是世界上最好的數學家、理論物理學家和機器學習專家。

雖然自己早放棄了股票,但吳軍說得還是有理有據,現在閒逛書店看到滿地的股票技術參考書時,心裡就會想起自己當初的樣子,但又有多少人能聽到這些道理,然後抑制一下衝動和浮躁呢?


分享到:


相關文章: