爲什麼許多數據挖掘項目都死掉了?

為什麼許多數據挖掘項目都死掉了?

大數據時代,數據挖掘變得越加重要。雖然越來越多的公司開始做著嘗試通過數據挖掘來推動運營和決策,但是成功的項目卻不多見。結合自身數據挖掘經歷,我覺得可能有以下原因。

獲取準確的數據不是一件容易的事

目前在電力行業做數據挖掘,目前做變壓器故障預測,就是希望通過運行 數據和歷史數據,天氣數據來判斷未來一段時間出故障的可能性有多大,方便技術人員有針對性的監控和檢修,但是電網數據實在是太龐大雜亂了,而且,說實在的數據庫也很亂,設計的不是很合理,可能有歷史遺留問題,而且人員變動大,許多現在的業務骨幹都看不懂數據庫中的表結構,對於數據挖掘人員來講,簡直就是業務理解和數據準備的噩耗了。

因為業務的理解很困難,數據完全被業務扭曲,如果要預測準確,不僅自身設備運行的因素要考慮進去,還要考慮天氣影響、地域負載等等,你訓練時看到的是一個簡單的結果數據,但誘導因素異常複雜,這類因素相關的數據尤其是天氣數據根本取不到或者難以量化。

與互聯網大一統的數據相比,其搞的風控模型顯然要簡單的多了,因為數據的獲取難度和穩定度不在一個量級上。

數據挖掘,難就難在要為預測的業務提供跟這個業務相關的數據環境,因此,有時離網模型做不好,並不是模型師的錯,也不是算法的問題,而是業務惹的禍,是數據問題。

阿里的螞蟻金服,所以能算法取勝,一個原因是它天生具有線上的資金往來數據,如果讓它去分析傳統銀行的線下數據,估計難度也很大。

頭條的新聞推薦,之所以通過算法取勝,也是因為他有線上的數據,能夠獲取大量的人們看新聞的數據。

數據挖掘師特別強調要理解業務,就是希望你基於業務的理解能找到所需的解釋數據,外來的和尚所以做不好,也是這個因素,因為打一槍換一個地方的方式,跟紮根理解業務的建模文化背道而馳。

數據準備,不確定性總是存在,因此一定程度上講,這個世界是不可預測的,預測的能力,跟我們採集數據的能力成一定的正相關關係。

大數據的意義,就在於可以採集到更多的數據,這個決定了我們用機器解釋世界的可能程度。

數據缺失總是難免的

為什麼數據挖掘的數據準備工作要這麼長時間,有時候一個項目的調研就需要一個多月的時間,可以理解成獲取數據時間很長、轉換成所需的數據形式和格式時間很長,畢竟只有這樣做,才能餵給數據挖掘引擎處理。

但數據準備的真正目的,其實是要從特定業務的角度去獲取一個真實的數據世界,數據的獲取比處理重要。

電力行業的數據挖掘項目很多,但是這麼多年做下來,很難說有幾個成功的,

數據難獲取是一方面,再就是數據缺失很嚴重,電網數據受大環境的影響很大,許多因素都難以在控制之內,所以有的數據缺失很嚴重。

數據失真現象嚴重

你好不容易獲取數據,一看還是很全面的,規整的數據,這個時候你是該慶幸還是該嘆息?

遇到這樣的情況,很可以你拿到的是別預設好的數據,而不是真實數據。

就以電力行業的偷電漏電分析來說,真正偷電的你覺得會是什麼人呢,會是普通的市民嗎?

可想而知,你可能拿不到有關這方面的數據,即使拿到了,你覺得會是真實數據嗎?

很多時候,你拿到的數據可能都是假數據,雖然你不是故意的,你還很認真,但因為受限於業務能力和一些其他因素,決定了你只能拿到假數據,結果可想而知。

這是數據挖掘的第一步,也是最難的一步,如果你拿到的是假數據,那麼接下來你的所有努力都是白忙活!

大數據時代,業務結合數據,才能真正彰顯作用!

缺乏後期再實際中運用的優化

很多傳統企業,數據挖掘效果不好,跟企業的組織、機制、流程等相關,舉個例子:

曾經在一家金融公司做一個還款意願預測,就是對消費分期的客戶進行還款預判,進而採取不同的催收方式,這樣可以提高催款的效率,節省人力,做出來了,讓催收人員根據這個預測結果去有針對的使用。但是反饋時間比較長,直到我快離職了,還是沒有反饋。

有多少模型由於線下流程的原因而被放棄了,誰都知道,數據挖掘靠的是後期生產過程中不斷優化,很難第一次就成功。

傳統企業冗長的線下流程,的確成為了模型優化的大殺器,互聯網公司天生的在線性讓其算法發揮出巨大的價值,而傳統企業的建模,往往還在為獲得反饋數據而努力,組織、系統和運營上的差距很大

綜上:

數據挖掘所以難,是綜合多種因素的結果,可能不是靠建立一個平臺,懂得一些算法,掌握一個工具就能簡單解決的,往往具有更深層次的原因。當然,大數據時代,平臺和算法也越來越重要,但是任何時候都不能忘記初衷,離開業務,數據也就失去了意義!


分享到:


相關文章: