機器學習:主成分分析

主成分分析是一種重要的無監督學習方法,數學基礎是線性代數的矩陣分解理論。主要有兩個用處,第一個是可以幫助我們檢查數據的質量,發現數據的內在結構,判斷哪些信息是有用的,哪些信息是冗餘的可以剔除;第二是可以幫助我們獲得包含信息量最大的部分,就是主成分所在的方向,當然會有第一主成分、第二主成分等等,可以選擇k個主成分來分析,減少計算量的同時還可以實現數據壓縮的目的。

首先可以將獲得的多維數據視為一個m*n階矩陣,通過主成分分析首先我們可以知道,這些多維數據中哪些維度是線性相關的,那些數據是線性無關的也就是發現各維度之間的關係即數據中隱藏的結構。可以通過矩陣的秩來理解,如果矩陣秩等於變量的維度,我們就可以認為這些維度之間是線性無關的,如果秩的個數小於變量維度說明某些維度之間存在線性相關,多維數據中存在冗餘信息,去除冗餘信息後的數據分析起來會更有效率。

其次,我們可以通過PCA對既有的矩陣進行分解,將矩陣變換為兩個正交變換矩陣和一個對角矩陣的形式,正交矩陣可以看作是多維空間的旋轉和反射變換,而對角矩陣則由矩陣的特徵向量組成,特徵向量可以看作是多維變量張成的特徵空間,而特徵向量的值則代表了矩陣在每個方向上變化大小,所以特徵值最大的方向包含了最多的信息。

PCA分析是多元統計中非常常用的工具,它的基本思想也很簡單,把握住這個PCAF方法的思想主線就可以應用好這個方法。


機器學習:主成分分析


分享到:


相關文章: