05.26 機器學習 西瓜書 Day14 降維與度量學習(下)

內容導讀

核主成分分析(KPCA) 降溫方法詳情見p233。需要注意的是,Isomap僅得到了訓練樣本降維後的座標,新樣本又該怎麼映射呢?常用方案: 利用訓練樣本高維-低維構造迴歸器 ,顯然這是個權宜之計。LLE試圖保持鄰域內樣本之間的線性關係。即在高維空間內一個點能被周圍的幾個點線性組合出來,降了維也得是這樣。對高維數據進行降維的主要目標是希望找到一個低維空間,在這個空間學習性能更好。

p232 - p246

今天這篇在公司寫的

最近熬夜太多

感覺有些透支

今天要早睡

第十章 降維與度量學習

10.4 核化線性降維

線性方法有時具有侷限性

見p232的例子

非線性降維的一種常用方法,是基於核技巧對線性降維方法進行“核化”。

核主成分分析(KPCA)

降溫方法詳情見p233。

10.5 流形學習

“流形”是在局部與歐式空間同(月丕)的空間。

換言之,它在局部具有歐式空間的性質,能用歐氏距離來進行距離計算

10.5.1 等度量映射(Isomap)

當低維流形被嵌入高維空間之後,直接在高維空間計算直線距離是不對的。

見p234圖10.7

在流形上兩點間的距離應當是測地線的距離

如何計算測地線距離呢?

利用局部同丕性質,可以對每個點基於歐氏距離找到近鄰點(找近鄰點的方法2種見下),建立一個近鄰連接圖。

這樣,計算兩點之間測地線距離的問題,轉化為了計算近鄰連接圖上兩點之間的最短路徑

有了距離矩陣,就可用10.2的MDS算法進行輸出,輸出樣本在低維空間的座標。

需要注意的是,Isomap僅得到了訓練樣本降維後的座標,新樣本又該怎麼映射呢?

常用方案:利用訓練樣本高維-低維構造迴歸器

,顯然這是個權宜之計。

如何找近鄰點?k近鄰圖。ε近鄰圖。

10.5.2 局部線性嵌入(LLE)

LLE試圖保持鄰域內樣本之間的線性關係。

即在高維空間內一個點能被周圍的幾個點線性組合出來,降了維也得是這樣。

算法見圖10.10

10.6 度量學習

對高維數據進行降維的主要目標是希望找到一個低維空間,在這個空間學習性能更好。

每個空間都定義了一種距離度量。

那麼為什麼不直接學出一種距離度量呢?

p238:度量學習就是為了學出一個矩陣M


分享到:


相關文章: