數據挖掘工程師知識集錦

數據挖掘的技術過程:

  1. 數據清理(消除噪音或不一致數據)
  2. 數據集成(多種數據源可以組合在一起)
  3. 數據選擇(從數據庫中提取與分析任務相關的數據)
  4. 數據變換(數據變換或統一成適合挖掘的形式;如,通過彙總或聚集操作)
  5. 數據挖掘(基本步驟,使用智能方法提取數據模式)
  6. 模式評估(根據某種興趣度度量,識別提供知識的真正有趣的模式)
  7. 知識表示(使用可視化和知識表示技術,向用戶提供挖掘的知識)。
數據挖掘工程師知識集錦

數據挖掘工程師知識集錦

可以挖掘的數據類型:

關係數據庫、數據倉庫、事務數據庫、空間數據庫、時間序列數據庫、文本數據庫和多媒體數據庫。

關係數據庫:是表的集合,每個表都賦予一個唯一的名字。每個表包含一組 屬性(列或字段),並通常存放大量 元組(記錄或行)。關係中的每個元組代表一個被唯一關鍵字標識的對象,並被一組屬性值描述。

數據倉庫:通過數據清理、數據變換、數據集成、數據裝入和定期數據刷新構造

數據挖掘工程師知識集錦

事務數據庫:由一個文件組成,其中每個記錄代表一個事務。通常,一個事務包含一個唯一的事務標識號(trans_ID),和一個組成事務的項的列表(如,在商店購買的商品)

數據抽樣:

抽樣是一種選擇數據對象子集進行分析的常用方法。在統計學中,抽樣長期用於數據的事先調查和最終的數據分析。在數據挖掘中,抽樣也非常有用。然而,在統計學和數據挖掘中,抽樣的動機並不相同。統計學使用抽樣是因為得到感興趣的整個數據集的費用太高、太費時間,而數據挖掘使用抽樣是因為處理所有的數據的費用太高、太費時間。在某些情況下,使用抽樣的算法可以壓縮數據量,以便可以使用更好但開銷較大的數據挖掘算法。

有效抽樣的主要原理如下:如果樣本是有代表性的,則使用樣本與使用整個數據集的效果幾乎一樣。而樣本是有代表性的,前提是它近似地具有與原數據集相同的(感興趣的)性質。如果數據對象的均值(平均值)是感興趣的性質,而樣本具有近似於原數據集的均值,則樣本就是有代表性的。由於抽樣是一個統計過程,特定樣本的代表性是變化的,因此我們所能做的最好的抽樣方案就是選擇一個確保以很高的概率得到有代表性的樣本。如下所述,這涉及選擇適當的樣本容量和抽樣技術。

1. 抽樣方法

有許多抽樣技術,但是這裡只介紹少數最基本的抽樣技術和它們的變形。最簡單的抽樣是簡單隨機抽樣(simple random sampling)。對於這種抽樣,選取任何特定項的概率相等。隨機抽樣有兩種變形(其他抽樣技術也一樣):(1) 無放回抽樣–每個選中項立即從構成總體的所有對象集中刪除;(2) 有放回抽樣–對象被選中時不從總體中刪除。在有放回抽樣中,相同的對象可能被多次抽出。當樣本與數據集相比相對較小時,兩種方法產生的樣本差別不大。但是,對於分析,有放回抽樣較為簡單,因為在抽樣過程中,每個對象被選中的概率保持不變。

當總體由不同類型的對象組成,每種類型的對象數量差別很大時,簡單隨機抽樣不能充分地代表不太頻繁出現的對象類型。當分析需要所有類型的代表時,這可能出現問題。例如,當為稀有類構建分類模型時,樣本中適當地提供稀有類是至關重要的,因此需要提供具有不同頻率的感興趣的項的抽樣方案。分層抽樣(stratified sampling)就是這樣的方法,它從預先指定的組開始抽樣。在最簡單的情況下,儘管每組的大小不同,但是從每組抽取的對象個數相同。另一種變形是從每一組抽取的對象數量正比於該組的大小。

例2.8 抽樣與信息損失 一旦選定抽樣技術,就需要選擇樣本容量。較大的樣本容量增大了樣本具有代表性的概率,但也抵消了抽樣帶來的許多好處。反過來,使用較小容量的樣本,可能丟失模式,或檢測出錯誤的模式。圖2-9a顯示包含8 000個二維點的數據集,而圖2-9b和圖2-9c顯示從該數據集抽取的容量分別為2 000和500的樣本。該數據集的大部分結構都出現在2 000個點的樣本中,但是許多結構在500個點的樣本中丟失了。

圖2-9 抽樣丟失結構的例子

例2.9 確定適當的樣本容量 為了說明確定合適的樣本容量需要系統的方法,考慮下面的任務。

給定一個數據集,它包含少量容量大致相等的組。從每組至少找出一個代表點。假定每個組內的對象高度相似,但是不同組中的對象不太相似。還假定組的個數不多(例如,10個組)。圖2-10a顯示了一個理想簇(組)的集合,這些點可能從中抽取。

使用抽樣可以有效地解決該問題。一種方法是取數據點的一個小樣本,逐對計算點之間的相似性,然後形成高度相似的點組。從這些組每組取一個點,則可以得到具有代表性的點的集合。然而,按照該方法,我們需要確定樣本的容量,它以很高的概率確保得到期望的結果,即從每個簇至少找出一個代表點。圖2-10b顯示隨著樣本容量從10變化到60時,從10個組的每一個得到一個對象的概率。有趣的是,使用容量為20的樣本,只有很小的機會(20%)得到包含所有10個簇的樣本。即便使用容量為30的樣本,得到不包含所有10個簇中對象的樣本的幾率也很高(幾乎40%)。該問題將在第8章習題4討論聚類中進一步考察。

圖2-10 從10個組找出具有代表性的點

2. 漸進抽樣

合適的樣本容量可能很難確定,因此有時需要使用自適應(adaptive)或漸進抽樣(progre- ssive sampling)方法。這些方法從一個小樣本開始,然後增加樣本容量直至得到足夠容量的樣本。儘管這種技術不需要在開始就確定正確的樣本容量,但是需要評估樣本的方法,確定它是否足夠大。

例如,假定使用漸進抽樣來學習一個預測模型。儘管預測模型的準確率隨樣本容量增加,但是在某一點準確率的增加趨於穩定。我們希望在穩定點停止增加樣本容量。通過掌握模型準確率隨樣本逐漸增大的變化情況,並通過選取接近於當前容量的其他樣本,我們可以估計出與穩定點的接近程度,從而停止抽樣。

數據預處理

分箱法:

由於分箱方法考慮相鄰的值,因此是一種局部平滑方法。分箱的主要目的是去噪,將連續數據離散化,增加粒度。

按照取值的不同可劃分為按箱平均值平滑、按箱中值平滑以及按箱邊界值平滑。

假設有8、24、15、41、6、10、18、67、25等9個數,先對數進行從小到大的排序,6、8、10、15、18、24、25、41、67,再分為3箱。

箱1: 6、8、10

箱2: 15、18、24

箱3: 25、41、67

分別用三種不同的分箱法求出平滑存儲數據的值:

按箱平均值求得平滑數據值:箱1: 8,8,8,平均值是8,這樣該箱中的每一個值被替換為8。

按箱中值求得平滑數據值:箱2: 18,18,18 ,可以使用按箱中值平滑,此時,箱中的每一個值被箱中的中值替換。

按箱邊界值求得平滑數據值: 箱3:25,25,67,箱中的最大和最小值被視為箱邊界。箱中的每一個值都被最近的邊界值替換。

可以挖掘的模式類型:

挖掘頻繁模式、關聯和相關性

用於預測分析的分類與迴歸

聚類分析

離群點分析

使用的技術

數據挖掘工程師知識集錦

面向的應用類型

商務智能、web搜索引擎

在挖掘中需要注意的東西

源數據特徵方面:

1、監督還是非監督,即有無樣本數據。

2、對象特徵(屬性)是什麼產生的,為什麼這麼產生

3、屬性是離散的還是連續的

4、混合類型屬性。離散屬性是標稱還是數值。標稱屬性類型:二元、有序、無關。數值屬性類型:區間、比例

5、特徵維度和稀疏度怎麼處理

6、缺失值怎麼處理

7、各維度尺度怎麼處理

8、異常噪聲怎麼處理

9、超大數據集怎麼辦

數據間相似性和相異性的度量:

1、數據矩陣(對象-屬性結構)、相異性矩陣(對象-對象結構)

2、標稱屬性的相似度、二元屬性的相似度、數值屬性的相似度、序數屬性相似度、混合屬性相似度

3、稀疏特徵向量的餘弦相似性

數據預處理方面(清洗、集承、歸約、變換):

數據挖掘工程師知識集錦

1、數據不準確怎麼辦?

2、數據不完整這麼辦?

3、數據格式不一致怎麼辦?

4、數據重複、冗餘怎麼辦?

5、數據已過時怎麼辦?

6、數據噪聲、離群點怎麼辦?

7、維度太高怎麼辦?(歸約、小波變換、主成分分析、屬性子集、)

數據結果方面:

1、數值結果還是類結果

2、如何判斷結果的好壞(分類結果評估?聚類結果評估)

3、結果能否反饋到模型中(後饋)

模型方面:

1、如何判斷模型的好壞

2、如何用現有數據增強模型(交叉驗證)

3、如何並用多個模型(隨機森林)

數據挖掘算法

分類器與聚類算法不同。聚類算法是非監督算法,只是對一群輸入對象進行分組,每組屬於什麼類別是不知道的。而分類器是在沒有任何數據前就已經定好了擁有哪些類。分類器是監督算法。對一批已知所屬分類的數據集進行統計訓練。然後再對新來的數據進行判定屬於哪個分類。

分類過程概述:首先有一批已知分類的數據集。對每個輸入對象提取特徵,根據輸入對象的特徵屬性和輸入對象的所屬分類,計算分類與特徵屬性之間的概率關係,以此來實現樣本的訓練。當對新的輸入對象進行預測所屬分類時,提取新輸入對象的特徵,根據訓練好的概率,判斷輸入對象屬於每個分類的概率。

分類模型的評判

用什麼評估:

混淆矩陣(Confusion Matrix)分析

怎麼評估:

交叉驗證

評估結果:

一個模型在訓練數據上能夠獲得比其他模型更好的擬合, 但是在訓練數據外的數據集上卻不能很好地擬合數據,此時認為這個模型出現了過擬合的現象。出現這種現象的主要原因是訓練數據中存在噪音或者訓練數據太少。

例如下圖

數據挖掘工程師知識集錦

可以看出在a中雖然完全的擬合了樣本數據,但對於b中的測試數據分類準確度很差。而c雖然沒有完全擬合樣本數據,但在d中對於測試數據的分類準確度卻很高。過擬合問題往往是由於訓練數據少等原因造成的。

由測量的樣本數據,估計一個假定的模型/函數。根據擬合的模型是否合適?可分為以下三類:

1、合適擬合

2、欠擬合

3、過擬合

欠擬合:

數據挖掘工程師知識集錦

合適的擬合:

數據挖掘工程師知識集錦

過擬合:

數據挖掘工程師知識集錦

大數據工程師基技能圖譜:

數據挖掘工程師知識集錦


分享到:


相關文章: