數據分析的高級應用,是時候搞懂數據挖掘了

隨著時代的發展,人類產生的數據成倍增長,數據的開放性應用和數據可挖掘價值越來越高。在大數據精準營銷、大數據洞察等一系列熱詞背後,正是數據挖掘、分析技術發揮著重要的作用。數據挖掘技術不僅成為當今政務部門提升治理能力的重要手段,也成為各行各業提升核心競爭力的關鍵。

數據分析的高級應用,是時候搞懂數據挖掘了

什麼是數據挖掘

數據挖掘是從大量的不完全的有噪聲的模糊的隨機的數據中,提取隱含在其中的、人們事先不知道的、但有潛在的有用信息和知識的過程。


數據分析的高級應用,是時候搞懂數據挖掘了

可以看出,數據挖掘是一個過程結果的稱謂,即主要目標是從數據中挖取隱藏的信息。它是一個交叉科學領域,受多個學科影響,包括數據庫系統、統計、機器學習、可視化和信息科學。

數據挖掘與商業智能的關係

舉個簡單點的例子:

  • 通過統計購買某產品的人大多數來自北京,則北京是該產品的主要消費者居住的城市,這就是用的商業智能技術。
  • 要從100000人中找出100個購買某產品概率比較大的客戶,則可以通過利用統計方法建立數學模型找到這群人,而這就要用數據挖掘技術。
數據分析的高級應用,是時候搞懂數據挖掘了

也就是說:

  • 商業智能就是目標明確的創建統計分析報表,根據統計結果,提供商業決策支持,輸入的是數據,輸出的是信息
  • 數據挖掘則是透過數據的表象發現隱藏在背後的蛛絲馬跡,從而找到潛伏的規律以及看似無關事物之間背後的聯繫,用此來洞察或預測未知事項,輸入的是數據,輸出的是知識

利用數據挖掘技術,對大量的業務數進行探索和分析揭示隱藏的、未知的規律,是商業智能的高級應用。

數據挖掘能解決哪些問題

根據數據挖掘的應用方向,常見的數據挖掘能解決的問題體現在下面幾個方面。

1. 分類與迴歸

分類根據樣本數據中標記的類別對原數據進行分類總結,進而也可以預測未來數據的歸類。

迴歸是確定一種或多種變量間相互依賴關係的一種統計分析方法。

分類與迴歸本質上解決的都是預測問題,不同的是分類適用於離散型目標變量的預測,而回歸適用於連續型目標變量的預測。下面這些問題可以用分類和迴歸技術來解決:

  • 如何將信用卡申請人分為低、中、高風險群?
  • 如何預測銀行可以安全地貸給貸款人的貸款量?
  • 如何有效預測房地產開發中存在的風險?
  • 如何預測哪些顧客在未來半年內會取消該公司服務,哪些電話用戶會申請增值服務?
  • 如何預測具有某些特徵的顧客是否會購買一臺新的計算機?
  • 使用3G通信網絡的手機用戶哪些有可能轉換到 4G通信網絡?
  • 如何預測一位顧客在一次銷售期間將花多少錢?
  • 如何預測病人應當接受三種具體治療方案的哪一種?

下圖是一個基於決策樹預測銀行客戶是否存在貸款風險的示例:

數據分析的高級應用,是時候搞懂數據挖掘了

2. 聚類

聚類是在預先不知道欲劃分類的情況下,根據數據相似度原則進行數據歸類的方法。

中國有句古話是“物以類聚,人以群分”,其實已經蘊含了聚類算法的基本思想。聚類能解決如下方面的問題:

  • 誰是銀行信用卡的黃金客戶?
  • 誰喜歡打國際長途,在什麼時間,打到那裡?
  • 如何對用戶 WAP 上網行為進行分析,通過客戶分群,進行精確營銷?
  • 對住宅區進行聚類,確定自動提款機 ATM 的安放位置。
  • 如何通過一些特定的症狀歸納某類特定的疾病?

例如下圖,找到共性的數據,然後聚類顯示:

數據分析的高級應用,是時候搞懂數據挖掘了

3. 關聯規則

關聯規則在一個數據集中找出各個物品或者商品之間的關係,也被稱為購物籃分析。

關聯規則描述的是在一個事物中物品間同時出現的規律的知識模式,可以應用到很多實際業務中:

  • 哪些商品是已經購買商品 A 的人最有可能購買的?
  • 商業銷售上,如何通過交叉銷售,以得到更大的收入?
  • 保險方面,如何分析索賠要求,發現潛在的欺詐行為?
  • 銀行方面,如何分析顧客消費行業,以便有針對性的向其推薦感興趣的服務?
  • 哪些製造零件和設備設置與故障事件關聯?
  • 哪些病人和藥物屬性與結果關聯?

下圖是某商場購物藍推薦結果示例:

數據分析的高級應用,是時候搞懂數據挖掘了

4. 時間序列預測

通過已有的時間序列數據進行類推,以預測下一段時間的趨勢。

時間序列預測是在與時間相關的歷史數據中,找到數據隨時間變動的規律。你可以用來解決如下問題:

  • 下個月的商品銷量、銷售額或庫存量是多少?
  • 明天廣州市的最高用電負荷是多少?

下圖是某公司紅酒銷量的預測圖:

數據分析的高級應用,是時候搞懂數據挖掘了

5. 關係網絡分析

關係網絡分析用來探索社會行動者及其間的關係,例如:社會關係、親屬關係、角色關係、行為關係、流動關係、地理空間關係等等。

關係網絡分析也叫社會網絡分析。通過社會網絡分析,可以探索和發現行動者之間隱藏的關係。常見的關係有:

  • 親屬關係:父母、子女、夫妻關係等。
  • 正式關係(權威關係):正式角色也是關係性的,如老闆/職員、教師/學生、醫生/病人關係等。
  • 個人之間的評價關係:喜歡、信任、尊重等。
  • 行為上的互動關係:行動者之間的自然交往,如談話、參加會議、拜訪、提建議等。
  • 隸屬關係:如參加一項協會、屬於某些俱樂部等。
  • 物質資本的傳遞:商業往來、物資交流。
  • 非物質資源的轉換關係:行動者之間的交往、信息的交換等。
  • 空間關聯:城市之間的關係,遷入和遷出。
  • 職位的升遷,地位的流動。

下面是對《悲慘世界》一書中人物的關係網絡分析的一個示例:

數據分析的高級應用,是時候搞懂數據挖掘了

數據分析的高級應用,是時候搞懂數據挖掘了

數據挖掘是一個週而復始的過程,在生成規則的過程中不斷地對模型進行調整,從而提升精度。那麼,怎麼才能更好地掌握數據挖掘呢,億信華辰數據挖掘軟件豌豆DM是一個不錯的選擇。

豌豆DM內置分類分析、迴歸分析、聚類分析、關聯規則分析以及時間序列應用等五大類十幾個小類的數據挖掘算法,並支持R語言算法擴展。讓用戶可以通過半自動化或者自動化地分析業務數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助你解決客戶流失分析、客戶細分、銀行客戶貸款風險分析、客戶信用評價、關聯推薦(購物籃分析)等各類數據分析應用問題。


分享到:


相關文章: