05.26 機器學習 西瓜書 Day14 特徵選擇與稀疏學習

內容導讀

想辦法比較這兩個劃分的差異就能評價好壞。過濾式方法先對數據集進行特徵選擇,再訓練學習器。也就是要給學習器選擇最有利於其性能,量身定做的特徵子集。LVW中特徵子集搜索採用了隨機策略,每次評價都得重新訓練學習器,故計算開銷是很大的。L1正則化問題的求解可使用近端梯度下降方法(PGD)。PGD可以使LASSO和其他基於L1範數最小化的方法得以快速求解。

p247 - p266

哈哈哈感覺今天看書的狀態不錯

看來有希望把欠的兩天都補上呀

不多說了進入第11章

第11章 特徵選擇與稀疏學習

11.1 子集搜索與評價

從給定的特徵集合中選擇相關特徵子集的過程,稱為“特徵選擇”。

特徵選擇是一個重要的數據預處理過程。

能降低“維數災難”風險,並有降維的效果。

處理高維數據的兩大主流技術:“降維”、“特徵選擇”。

“無關特徵”,“冗餘特徵”?

如果“冗餘特徵”對應了一箇中間過程,那麼這個“冗餘過程”是有益的。

怎麼選特徵?

產生一個“候選子集”,評價出好壞,基於評價產生下一個候選子集,再評價,直到收斂。

兩個問題:

1)如何獲取候選子集?

“子集搜索問題”。前向(非常像決策樹)、後向、雙向。

貪心策略,並不能全局最優。

2)如何評價好壞?

使用信息增益。

實際上,特徵子集對應了一個對數據集D的劃分,真實label對應了一個劃分。想辦法比較這兩個劃分的差異就能評價好壞。

特徵搜索+子集評價:特徵選擇。

常見分為三類:過濾式、包裹式、嵌入式。

11.2 過濾式選擇

過濾式方法先對數據集進行特徵選擇,再訓練學習器。特徵選擇和學習器無關。

Relief:著名的特徵選擇方法。

設計了一個“相關統計量”來度量特徵的重要性。

對每個樣本先選擇最近的同類樣本,在選擇最近的不同類樣本。

相關統計量對於每個屬性j的計算方法:p250 式11.3

FRelief:對多分類的擴展。

11.3 包裹式選擇

包裹式選擇考慮學習器,把學習器的性能作為評價指標。

也就是要給學習器選擇最有利於其性能,量身定做的特徵子集。

開銷自然會比過濾式大。

LVW:典型的包裹式選擇方法。(拉斯維加斯框架下)

偽碼見p251

LVW中特徵子集搜索採用了隨機策略,每次評價都得重新訓練學習器,故計算開銷是很大的。

同時,由於是拉斯維加斯框架,故可能給不出解。

11.4 嵌入式選擇和L1正則化

嵌入式:學習器訓練過程中自動進行了特徵選擇。

當維數較大樣本較少,容易陷入過擬合。

故加入正則項。

而L1範數是比L2更容易得到更稀疏的解的,也就是說w中0更多。也就是選擇了特徵。

p252 式11.7稱為LASSO

從而基於L1正則化的學習方法就是一種嵌入式特徵選擇方法

L1正則化問題的求解可使用近端梯度下降方法(PGD)。詳細原理見p253-254。

PGD可以使LASSO和其他基於L1範數最小化的方法得以快速求解。

11.5 稀疏表示與字典學習


分享到:


相關文章: