一門快速成長的領域——數據挖掘:時代的產物,科技的進步!

正文:

這是一門正處於青年並急速成長的領域——數據挖掘(又稱從數據中發現知識,簡稱KDD)。

時代背景

目前我們都知道現在的大數據已經發展的極為迅速,正慢慢的過度到人工智能時代,成功與不成功先不說,至少現在是這個趨勢,在工業界利用的非常好,國家也在大力支持,國內外的企業也在爭先恐後的擠進這個領域。在時代的大背景下發展,造就了技術的極速衍生狀態。

一門快速成長的領域——數據挖掘:時代的產物,科技的進步!

1.1 數據挖掘又是什麼?為什麼會有數據挖掘?與機器學習有何關聯?

我們應該知道機器學習是人工智能領域的一項重要板塊,也可以說是機器學習使人工智能開始火熱了起來。而機器學習我所瞭解過一個定義:“利用經驗來改善計算機系統自身的性能”。這句話裡面的“經驗”到底是什麼?人需要學習,而機器自然也需要學習,打遊戲的時候升級需要經驗人類學習進步也需要經驗,機器學習自然不能夠避免這個,至少目前為止還沒有。經驗在計算機裡面的就是以數據形式存在的,機器學習需要設法對數據進行分析,那麼該如何利用這個數據呢?由此數據挖掘產生了,它與機器學習之間的關聯又是怎樣的呢?我們可以設想,如果是我們想要分析一股巨大的數據,該利用那些方法呢?機器學習可以做到分析數據,數據庫可以進行數據管理操作,那麼如果機器學習和數據庫結合到一起會怎麼樣,這個分析的過程其實就是數據挖掘。

1.2 知識發現的過程:

1、 數據清理(消除噪聲和刪除不一致數據)

2、 數據集成(多種數據源可以組合在一起)

3、 數據選擇(從數據庫中提取與分析任務相關的數據)

4、 數據變換(通過彙總或聚集操作,把數據變換和統一成合適挖掘的形式)

5、 數據挖掘(基本步驟,使用智能方法提取數據模式)

6、 模式評估(根據某種興趣度度量,識別代表知識的真正有趣模式)

7、 知識表示(使用可視化和知識表示技術,向用戶提供挖掘的知識)

步驟1-4是數據預處理的不同形式,為挖掘準備數據。數據挖掘步驟可能與用戶或知識庫交互。有趣的模式提供給用戶,或作為新的知識存放在知識庫中。

1.3數據挖掘的主要功能

1. 分類:找出描述和區分數據類或概念的模型(或函數),以便能夠使用模型預測類標號未知的對象的類的標號。導出模型是基於對訓練數據集的分析。

按照分析對象的屬性、特徵,建立不同的組類來描述事物。例如:銀行部門根據以前的數據將客戶分成了不同的類別,現在就可以根據這些來區分新申請貸款的客戶,以採取相應的貸款方案。

2. 聚類:不像分類和迴歸分析標記類的(訓練)數據集,聚類分析數據對象,而不考慮類標號。在許多情況下,開始並不存在標記類的數據。可以使用聚類產生數據組群的類標號。對象根據最大化類內相似性、最小化類間相似性的原則進行聚類或分組。也就是說,對象的簇這樣形成,使得相比之下在同一個簇中的對象具有很高的相似性,而與其他簇中的對象很不相似。所形成的沒個簇都可以看成一個對象類,由他可以導出規則。

識別出分析對內在的規則,按照這些規則把對象分成若干類。例如:將申請人分為高度風險申請者,中度風險申請者,低度風險申請者。

3. 關聯規則和序列模式的發現:關聯是某種事物發生時其他事物會發生的這樣一種聯繫。例如:每天購買啤酒的人也有可能購買香菸,比重有多大,可以通過關聯的支持度和可信度來描述。與關聯不同,序列是一種縱向的聯繫。例如:今天銀行調整利率,明天股市的變化。

4. 預測:把握分析對象發展的規律,對未來的趨勢做出預見。例如:對未來經濟發展的判斷。

5. 偏差的檢測:對分析對象的少數的、極端的特例的描述,揭示內在的原因。例如:在銀行的100萬筆交易中有500例的欺詐行為,銀行為了穩健經營,就要發現這500例的內在因素,減小以後經營的風險。

需要注意的是:數據挖掘的各項功能不是獨立存在的,在數據挖掘中互相聯繫,發揮作用。

1.4數據挖掘的方法及工具

作為一門處理數據的新興技術,數據挖掘有許多的新特徵。首先,數據挖掘面對的是海量的數據,這也是數據挖掘產生的原因。其次,數據可能是不完全的、有噪聲的、隨機的,有複雜的數據結構,維數大。最後,數據挖掘是許多學科的交叉,運用了統計學,計算機,數學等學科的技術。以下是常見和應用最廣泛的算法和模型:

(1) 傳統統計方法:

① 抽樣技術:我們面對的是大量的數據,對所有的數據進行分析是不可能的也是沒有必要的,就要在理論的指導下進行合理的抽樣。

② 多元統計分析:因子分析,聚類分析等。

③ 統計預測方法,如迴歸分析,時間序列分析等。

(2) 可視化技術:

用圖表等方式把數據特徵用直觀地表述出來,如直方圖等,這其中運用的許多描述統計的方法。可視化技術面對的一個難題是高維數據的可視化。

參考:《數據挖掘概念與技術》Jiawei Han Micheline Kamber Jian Pei著


分享到:


相關文章: