內容導讀
核主成分分析(KPCA) 降溫方法詳情見p233。需要注意的是,Isomap僅得到了訓練樣本降維後的座標,新樣本又該怎麼映射呢?常用方案: 利用訓練樣本高維-低維構造迴歸器 ,顯然這是個權宜之計。LLE試圖保持鄰域內樣本之間的線性關係。即在高維空間內一個點能被周圍的幾個點線性組合出來,降了維也得是這樣。對高維數據進行降維的主要目標是希望找到一個低維空間,在這個空間學習性能更好。
p232 - p246
今天這篇在公司寫的
最近熬夜太多
感覺有些透支
今天要早睡
第十章 降維與度量學習
10.4 核化線性降維
線性方法有時具有侷限性
見p232的例子
非線性降維的一種常用方法,是基於核技巧對線性降維方法進行“核化”。
核主成分分析(KPCA)
降溫方法詳情見p233。
10.5 流形學習
“流形”是在局部與歐式空間同(月丕)的空間。
換言之,它在局部具有歐式空間的性質,能用歐氏距離來進行距離計算。
10.5.1 等度量映射(Isomap)
當低維流形被嵌入高維空間之後,直接在高維空間計算直線距離是不對的。
見p234圖10.7
在流形上兩點間的距離應當是測地線的距離
如何計算測地線距離呢?
利用局部同丕性質,可以對每個點基於歐氏距離找到近鄰點(找近鄰點的方法2種見下),建立一個近鄰連接圖。
這樣,計算兩點之間測地線距離的問題,轉化為了計算近鄰連接圖上兩點之間的最短路徑。
有了距離矩陣,就可用10.2的MDS算法進行輸出,輸出樣本在低維空間的座標。
需要注意的是,Isomap僅得到了訓練樣本降維後的座標,新樣本又該怎麼映射呢?
常用方案:利用訓練樣本高維-低維構造迴歸器
如何找近鄰點?k近鄰圖。ε近鄰圖。
10.5.2 局部線性嵌入(LLE)
LLE試圖保持鄰域內樣本之間的線性關係。
即在高維空間內一個點能被周圍的幾個點線性組合出來,降了維也得是這樣。
算法見圖10.10
10.6 度量學習
對高維數據進行降維的主要目標是希望找到一個低維空間,在這個空間學習性能更好。
每個空間都定義了一種距離度量。
那麼為什麼不直接學出一種距離度量呢?
p238:度量學習就是為了學出一個矩陣M