大數據之數據挖掘的玉女心經

數據挖掘是一種技術,它將傳統的數據分析方法與處理大量數據的複雜算法相結合,在一個大型數據庫中,自動的發現有用信息的過程,還具有預測未來觀測結果的能力。數據挖掘的對象是數據,所以離開數據,挖掘無從談起。現將我學習《數據挖掘導論》的筆記寫出來,鞏固一下知識。

一、數據類型。

數據對象有其它的名字,如記錄,點,向量,模式,事件,案例,樣本,觀測或實體。

1、屬性與度量

屬性是對象的性質或特性,因對象而異,或隨時間而變化。

測量標度是將數值或符號與對象的屬性相關聯的規則。

屬性有四種類型:標稱、序數、區間、比率。其中標稱和序數屬性統稱分類的或定性的。區間和比率是數值的或定量的。

2、數據集的類型

數據集有三個重要的特性:維度、稀疏性、分辨率。

數據集有以下的類型:

*記錄數據,包括:事務數據或購物籃數據、數據矩陣、稀疏數據矩陣。

*基於圖形的數據,包括:帶有對象之間聯繫的數據、具有圖形對象的數據。

*有序數據,包括:時序數據、序列數據、時間序列數據、空間數據。

二、數據質量

1。測量和數據收集問題

測量誤差和數據收集錯誤:

噪聲和偽像:其中偽像是確定性失真,如一組照片同一地方上的條紋。

精度、偏倚和準確率:精度通常用值集合的標準差度量,而偏倚用值集合的均值與被測量的已知值之間的差度量。

離群點:是某種意義上具有不同於數據集中其它大部分數據對象的特徵的數據對象,或者相對於該屬性的典型值不尋常的屬性值,也稱異常對象。

遺漏值:是對一個對象中,其中一個或幾個屬性的信息未收集。有許多處理遺漏值的策略,如刪除數據對象或屬性、估計遺漏值、在分析時忽略遺漏值。

重複數據:數據集中可能包含重複或者幾乎重複的數據對象。

2。關於應用的問題

數據在應用時除了考慮質量問題之外,同時也要考慮如下幾個性質:時效性、相關性。

三、數據預處理

1、聚集

聚集是將兩個或多個對象合併成單個對象。

2、抽樣

抽樣是一種選擇數據子集進行分析的常用方法,主要基於這樣的思想:如果樣本是有代表性的,則使用樣本與使用整個數據集的效果幾乎一樣。

抽樣有如下幾個方法:無放回抽樣、有放回抽樣、分層抽樣、漸進抽樣。

3、維歸約

維歸約不同於聚集,聚集是合併對象,維歸約是減少屬性的個數,即降低維度。維歸約通過創建新屬性,將一些舊屬性合併在一起來降低數據集的維度。

維災難:是指這樣一種現象,隨著數據維度的增加,許多數據分析變得非常困難。

用於維歸約的線性代數技術:主成分分析(PCA)、奇異值分解(SVD)。

4、特徵子集選擇

降低維度的另一種方法是僅使用特徵的一個子集,用這個特徵子集代替原來的屬性集合,更能有效的捕獲數據集中的重要信息。有三種標準的特徵選擇方法:嵌入、過濾、包裝。

特徵加權:特徵越大(屬性),所賦予的權值越大,而不太重要的特徵賦予較小的權值。

5、離散化和二元化

在數據挖掘中,經常需要將連續屬性變換成分類屬性(離散化),並且連續和離散屬性可能都需要變換成一個或多個二元屬性(二元化)。

6、變量變換

變量變換是指用於變量的所有值的變換,也就是屬性變換。有兩種重要的變量變換類型:簡單函數、規範化或標準化。

四、相似性和相異性度量

1、相似性和相異性的高層定義是術語鄰近性。而相似度是兩個對像相似程度的數值度量。相異度(經常也稱距離)是兩個對象差異程度的數值度量。

2、數據對象之間的相異度

比較經典的是歐幾里德距離(歐式距離)。

3、數據對象之間的相似性

二元數據的相似性度量也稱相似係數。一般採用如下方法度量:簡單匹配係數:SMC=值匹配個數/屬性個數。Jaccard係數:J=匹配的屬性的個數/不涉及0-0匹配的屬性的個數。

餘弦相似度:比較常見用於比較兩個向量。在Web挖掘中經常用於比較兩個網面的相似性。

廣義Jaccard係數(Tanimoto係數):是對Jaccard係數的擴展,可以用於文檔數據。

4、鄰近度計算問題

組合異種屬性的相似度:可以分別計算出每個屬性之間的相似度,然後使用一種導致0和1之間相似度的方法組合這些相似度。如果某些屬性是非對稱屬性,則可以這樣處理:如果兩個對象在非對象屬性上的值都是0,則在計算機相似度是可以忽略他們。


分享到:


相關文章: