人工智慧機器學習算法之降維

LASSO通過參數縮減達到降維的目的。

LASSO(Least absolute shrinkage and selection operator, Tibshirani(1996))

該方法是一種壓縮估計,通過構造一個罰函數得到一個較為精煉的模型,使得壓縮一些係數,同時設定一些係數為零。英雌保留了子集收縮的優點,,是一種處理具有復共線性數據的有偏估計。Lasso 的基本思想是在迴歸係數的絕對值之和小於一個常數的約束條件下,使殘差平方和最小化,從而能夠產生某些嚴格等於 0 的迴歸係數,得到可以解釋的模型。

人工智能機器學習算法之降維

主成分分析算法(PCA)

Principal Component Analysis(PCA)是最常用的線性降維方法,它的目標是通過某種線性投影,將高維的數據映射到低維的空間中表示,並期望在所投影的維度上數據的方差最大,以此使用較少的數據維度,同時保留住較多的原數據點的特性。

PCA追求的是在降維之後能夠最大化保持數據的內在信息,並通過衡量在投影方向上的數據方差的大小來衡量該方向的重要性。但是這樣投影以後對數據的區分作用並不大,反而可能使得數據點揉雜在一起無法區分。這也是PCA存在的最大一個問題,這導致使用PCA在很多情況下的分類效果並不好。具體可以看下圖所示,若使用PCA將數據點投影至一維空間上時,PCA會選擇2軸,這使得原本很容易區分的兩簇點被揉雜在一起變得無法區分;而這時若選擇1軸將會得到很好的區分結果。

局部線性嵌入(LLE)

流形學習的局部區域具有歐式空間的性質,那麼在LLE中就假設某個點xixi座標可以由它周圍的一些點的座標線性組合求出,即xi=∑j∈Xifijxjxi=∑j∈Xifijxj(其中XiXi表示xixi的鄰域上點的集合),這也是在高維空間的一種表示。由於這種關係在低維空間中也被保留,因此zi=∑j∈Zifijzjzi=∑j∈Zifijzj,兩個式子裡面權重取值是一樣的。

人工智能機器學習算法之降維

LLE局部線性嵌入

Locally linear embedding(LLE)是一種非線性降維算法,它能夠使降維後的數據較好地保持原有流形結構。LLE可以說是流形學習方法最經典的工作之一。很多後續的流形學習、降維方法都與LLE有密切聯繫。

尚學堂12大精英團隊+各類實戰項目,真正實現1+1>10的目標效果。幫助學員迅速成長,持久騰飛,成就學員“高富帥”人生;幫助企業技術和團隊成長,成就百年中華名企;助力中國持續成為世界強國而貢獻力量。尚學堂12大精英團隊,覆蓋IT行業十大領域,實戰團隊240人,服務學員累計超過10萬人,就業合作企業數量500+。


分享到:


相關文章: