為什麼大數據項目總失敗?你沒問對這四個問題

為什麼大數據項目總失敗?你沒問對這四個問題

當今時代,數據已經成為我們經營業務的核心手段。事實上,據全球市場情報公司IDC預計,到2020年,全球花費在數據分析項目上的支出將達到2743億美元。然而,其中的大部分錢並沒有得到合理地利用。據高德納諮詢公司(Gartner)的分析師尼克•赫爾德克的估算,高達85%的大數據項目是失敗的。

問題的重點在於,出現在電腦屏幕上的數字具有一種特殊的權威感。一旦數據通過大量的數據庫被提取出來,並通過複雜的分析軟件進行分析,我們就幾乎不再會去關心這些數據究竟來自哪裡,它們究竟是如何被修正的,更不會去關心它是否真正適用於我們的研究目標了。

为什么大数据项目总失败?你没问对这四个问题

因此,實際上,要想從數據中得到有用的答案,我們便不能只看到它表面的數據值。我們需要學會如何提出更加深層的問題。我們尤其需要知道這些數據是如何得出的,我們用了什麼樣的模型來分析它們,以及在這一分析過程中究竟遺漏了什麼。最重要的是,我們需要超越僅僅使用數據來優化操作程序的做法,並學會利用數據來構思新的生產可能性。

我們要問的第一個問題是:

一、數據是如何得出的?

據說,數據一詞是“奇聞軼事”的複數形式。英語中有一句俚語,叫“很多奇聞軼事聚在一起就成了數據”。的確,真實世界的各種事件,如交易記錄、診斷結果和其他諸多相關信息,都被一一記錄下來,並存儲在大型服務器之中,這就是數據。但幾乎沒人會關注這些數據究竟來自哪裡,因此,非常不幸的是,我們收集到的數據的質量和處理方式可能會有很大差別。事實的確如此,高德納諮詢公司最近的一項研究揭示出,由於收集到的數據質量太差,每個公司平均損失竟然高達1500萬美元。

一般來說,數據的準確性會受到人為錯誤的影響,例如當低工資和動力不足的零售職員檢查庫存時,他們收集到的數據就往往並不準確。然而,即使數據收集過程是自動化的,也仍然會有很多的錯誤來源,比如手機信號塔的間歇性停電就會造成錯誤;在金融交易清算過程中運用自動化的信息收集方式同樣可能產生錯誤。

質量過差的數據和用於錯誤語境的數據可能比根本沒有數據更為糟糕。事實上,一項研究發現,65%的零售商庫存數據是不準確的。而自歐盟通過併發行了嚴格的GDPR(通用數據保護條例)數據標準以來,另一個日益重要的問題逐漸浮現:在收集數據時是否得到當事人適當的同意。

因此,不要簡單地認為你所擁有的數據是準確的和高質量的。你首先必須關心它是從哪裡得來的,以及它是如何維護的。我們越來越需要像做金融交易一樣,小心謹慎地審查我們的數據處理方式。

二、數據是如何分析的?

即使數據得到了準確和良好的維護,數據分析模型的質量也會有很大差異。一般而言,各種數據分析模型是通過開源平臺(如GitHub)組合在一起,並要為特定的分析任務進行重新的組合部署。但是,過不了多久,人們就忘記該模型究竟來自何處,也不再關心它究竟是如何評估特定的數據集合的了。

類似於這樣的失誤要比你所能想象到的更為常見,並且有可能造成嚴重的損失。我們可以回顧一下如下案例:曾經有兩位著名的經濟學家發表了一份工作報告,警告說美國債務即將面臨一個關鍵的節點。他們的工作引發了一場政治風暴,但事實證明,他們犯了一個簡單的Excel錯誤,導致他們誇大了債務對GDP的影響。這就是對數據處理方式的失誤造成的。

隨著數據處理模型變得越來越複雜,並納入了更多的數據來源,我們也越來越能看到,在數據模型的訓練上不斷出現更為嚴重的問題。最常見的錯誤之一是過度擬合,這大體意味著,用來創建模型的變量越多,模型本身就越難變得普遍有效。而在某些情況下,過量的數據會導致數據洩漏,在數據洩露中,訓練數據和測試數據攪和在一起了。

這些類型的錯誤甚至會困擾最為先進的公司。對此我們僅僅舉出兩個最為突出的例子就足夠了:亞馬遜和谷歌,最近與模型偏見有關的醜聞被高度曝光了。當我們處理數據時,我們需要不斷地向我們的模型提出難題:它們適合於我們的使用目的嗎?它們是否考慮到了正確的因素?模型所輸出的數據是否真實地反映現實世界中發生的事情?

三、數據無法告訴我們什麼?

數據模型,就像人類一樣,它們總是傾向於根據最可用的信息來做出判斷。但是,有時你所缺失的數據往往會像你所擁有的數據一樣影響你的決策。我們通常將這種類型的可用性偏差與人類決策聯繫起來,但人類設計者往往將這種偏差傳遞給自動化系統。

例如,在金融業中,那些擁有大量信貸歷史的人往往比那些沒有信貸歷史的人更容易獲得信貸。後者通常被稱為“瘦檔案”客戶,他們發現自己很難買車,很難租賃房屋,也很難申請到信用卡。(我們中的一員,一位名叫格雷格的同事,在海外生活15年後回到美國時,就曾親身經歷了這個問題)。

然而,缺少信貸歷史並不必然表明信用風險很高。而信貸公司最終往往僅僅因為缺乏相關數據而放棄潛在的盈利客戶。最近,益百利公司開始通過應用Boost程序來解決這一難題,該程序通過查詢消費者的日常支付活動來使消費者獲得信用評分,比如定期的電信充值和公共事業支付等等。迄今為止,已有數百萬人在該程序上登記註冊了。

因此,要問一問你的數據模型可能遺漏哪些方面,這個問題是極其重要的。如果你正在管理你所測量的數據,你就要確保你所測得的數據真實地反映了現實世界,而不只是一些最容易收集的僵死的數據。

四、我們如何利用數據重新設計產品和商業模式?

在過去的十年裡,我們已經瞭解了數據如何幫助我們更有效地管理我們的業務。智能化地使用數據使我們能夠進行自動化處理,預測我們的機器何時需要維護,並且更好地為我們的客戶服務。正是數據使得亞馬遜能夠提供包裹當日達服務。

數據也可以成為產品本身的重要組成部分。我們可以舉一個著名的例子,Netflix長期以來一直使用智能數據分析來花更少的成本創建更好的項目。這使得Netflix在與對手——如迪士尼和華納傳媒——競爭時獲得了一個重大的優勢。

然而,真正令人振奮的是,你可以用數據來完全重新構想你的業務模式。在Eric工作的益百利公司,他們已經能夠利用雲技術,從只以信用報告的形式提供處理過的數據,轉變為為客戶提供實時訪問報告所依據的更細粒度數據的服務。這看似是一個微不足道的轉變,但它已經成為益百利公司業務增長最快的部分之一。

有人說數據是新的石油,但實際上,數據要比石油更有價值。現在,我們必須開始轉變觀念,不能僅僅將數據視作一種被動的資產類別。如果使用得當,數據甚至能夠提供一種真實的競爭優勢,併產生一種全新的業務方向。然而,要做到這一點,你不能僅僅從尋找答案開始。你必須學會如何提出新的問題。

埃裡克•哈勒、格雷格•薩特爾 | 文

埃裡克•哈勒是益百利公司數據實驗室的執行副總裁兼全球負責人,該實驗室利用人工智能和數據資源進行了一系列突破性實驗,並開發出了新的產品。

格雷格•薩特爾是一位國際性的主題演講者、顧問和暢銷書作者。

張振濤 | 譯 周強 | 校

商務合作請添加微信:j15901051211


分享到:


相關文章: