大數據智能的三個層次

大數據簡單統計版:

話說二戰時盟軍決定給轟炸機做裝甲改裝。於是他們首先對戰鬥結束飛回來的受損飛機做了彈孔著點統計(數據意識還是很強的),發現主要受損部位集中在機翼而機腹最少。所以,指揮部根據此分析得出結論:應當加強機翼的裝甲而減少機腹的裝甲。

評論:採集和歸總數據,然後通過簡單的數據分析,給出報告和相關行動建議,這是當下很多大數據工作者做的事情。在很多情況下,這樣的做法比一點不看數據是有進步的。 但是從下面一個例子也可以看出其危險不小。

大数据智能的三个层次

大數據商業智能版:

(接上版)話說在這“加強機翼”彌天大錯就要釀成的關鍵時刻,一位聰明的工程師(到底是工程師還是將軍這裡有不同版本,咱們就不深究了)站出來說“等等,不對,咱們統計的都是能返航的飛機,那些被擊落沒有返航的飛機呢?死人不會說話”。據此推論,“一架飛機某個部位彈孔多還能飛回來恰恰說明那個地方不需要加強,我們應該加強沒有彈孔或者彈孔少的部位,因為那些部位彈孔多的都被擊落了沒有飛回來。”

評論:這個版本是大多數人聽到的完整故事。這個版本本身已經夠轉折,很好理解又需要腦筋轉彎,所以傳播很廣。這個版本實際上可以說是一個“BI版本”。為啥說這是“BI版” 呢?因為這個工程師能夠在表面數據統計基礎上,再結合業務場景思考,提出業務場景和數據相結合的思路。這是大多數好BI的標準。同時,因為BI同學多傾向於用可獲得的數據快速輸出結論給業務,他們一般不太願意從數據源等更科學的角度來思考結論的正確性。所以,這個工程師可以說是個合格的BI。

但為啥這還不是數據科學呢?因為這裡的結論只是一個基於經驗的推論和假設,如果盟軍真是就靠這個直覺假設改了最初的決定,那也很危險。

值得注意的是,日常的業務中是允許發生這樣的猜想並試錯的。我們可以不停地試錯迭代,實踐出真知。但對一些試錯成本很高或者不能試錯的關鍵戰略問題呢?我們就必須尋找更可靠的方法。這就引向了我的最後一個話題:數據科學的版本是啥樣的?

大數據數據科學版:

(接上版):實際上,在聰明的工程師意識到他們統計的數據只是返航飛機的時候,這僅僅是該重大項目的開始而不是結束。他們並不是靠這個簡單的猜想就做出了可能關係到整個戰爭勝負的結論。他們得出的階段性結論是:我們的數據有問題,缺乏被擊落的飛機的數據。而這些數據研發工程師和BI也想不出好辦法解決這個問題,於是他們找到了數據科學的開山祖師之一——美國哥倫比亞大學統計學沃德教授(Abraham Wald)。

大数据智能的三个层次

為了解決這個數據難題,沃德教授做了大量的研究,研究方法包括對收集到的歷史數據進行分析,虛擬數據仿真建模,甚至用真的戰鬥機掃射靶機做實驗,建立一套飛機每個部位中彈後的墜毀概率模型等。

其基本思路就是通過大量統計分析,推理出飛機的致命要害部位與彈孔分佈密度的關係,絕不僅僅是簡單的看彈孔分佈密度。比如他發現發動機是最要命的地方,被擊中一彈就有39%概率徹底墜毀,所以在返航的飛機上發動機處彈孔很稀疏。具體模型有興趣的同學可以讀沃德的這篇經典論文“A Method of Estimating Plane Vulnerability Based on Damage of Survivors”。

大数据智能的三个层次

評論:首先,這是一個最好的闡述數據科學和BI差別的例子。BI大多數時候是在現有數據基礎上比較快地給出業務需要的答案。數據科學在方法和結論的科學可驗證性上要嚴謹得多。它的優勢是能解決很多對業務至關重要而又不能低成本試錯的場景。它的缺點是對數據有更嚴格的要求且更耗時,要比一般的分析複雜得多,相應地需要消耗更多的資源。

類似的倖存者偏差數據問題在我們日常大數據工作中無處不在。

比如一個閱讀App,它只能收集分析到現有活躍用戶的閱讀偏好數據,而缺乏對新用戶及全網用戶的閱讀偏好及變化趨勢的瞭解;比如某品牌App的數據平臺,它大多數時候只能採集到購買了該品牌產品的用戶的相關數據,而沒有全市場的數據和類似客戶產品使用的相關數據。數據問題對很多關鍵數據任務,如公司戰略數據分析、標籤畫像產出、產品創新、品類規劃等都會產生很大影響。據瞭解,目前市場上大多數的數據科學或者算法都很少系統地研究並解決這類關鍵數據問題!

這個短故事今天就講到這裡,下面有時間我們再結合友盟+的數據科學研究,分享我們打算怎麼樣在保證數據安全的前提下,幫開發者避免倖存者偏差問題。

CIO之家 www.ciozj.com 微信公眾號:imciow


分享到:


相關文章: