內容導讀
想辦法比較這兩個劃分的差異就能評價好壞。過濾式方法先對數據集進行特徵選擇,再訓練學習器。也就是要給學習器選擇最有利於其性能,量身定做的特徵子集。LVW中特徵子集搜索採用了隨機策略,每次評價都得重新訓練學習器,故計算開銷是很大的。L1正則化問題的求解可使用近端梯度下降方法(PGD)。PGD可以使LASSO和其他基於L1範數最小化的方法得以快速求解。
p247 - p266
哈哈哈感覺今天看書的狀態不錯
看來有希望把欠的兩天都補上呀
不多說了進入第11章
第11章 特徵選擇與稀疏學習
11.1 子集搜索與評價
從給定的特徵集合中選擇相關特徵子集的過程,稱為“特徵選擇”。
特徵選擇是一個重要的數據預處理過程。
能降低“維數災難”風險,並有降維的效果。
處理高維數據的兩大主流技術:“降維”、“特徵選擇”。
“無關特徵”,“冗餘特徵”?
如果“冗餘特徵”對應了一箇中間過程,那麼這個“冗餘過程”是有益的。
怎麼選特徵?
產生一個“候選子集”,評價出好壞,基於評價產生下一個候選子集,再評價,直到收斂。
兩個問題:
1)如何獲取候選子集?
“子集搜索問題”。前向(非常像決策樹)、後向、雙向。
貪心策略,並不能全局最優。
2)如何評價好壞?
使用信息增益。
實際上,特徵子集對應了一個對數據集D的劃分,真實label對應了一個劃分。想辦法比較這兩個劃分的差異就能評價好壞。
特徵搜索+子集評價:特徵選擇。
常見分為三類:過濾式、包裹式、嵌入式。
11.2 過濾式選擇
過濾式方法先對數據集進行特徵選擇,再訓練學習器。特徵選擇和學習器無關。
Relief:著名的特徵選擇方法。
設計了一個“相關統計量”來度量特徵的重要性。
對每個樣本先選擇最近的同類樣本,在選擇最近的不同類樣本。
相關統計量對於每個屬性j的計算方法:p250 式11.3
FRelief:對多分類的擴展。
11.3 包裹式選擇
包裹式選擇考慮學習器,把學習器的性能作為評價指標。
也就是要給學習器選擇最有利於其性能,量身定做的特徵子集。
開銷自然會比過濾式大。
LVW:典型的包裹式選擇方法。(拉斯維加斯框架下)
偽碼見p251
LVW中特徵子集搜索採用了隨機策略,每次評價都得重新訓練學習器,故計算開銷是很大的。
同時,由於是拉斯維加斯框架,故可能給不出解。
11.4 嵌入式選擇和L1正則化
嵌入式:學習器訓練過程中自動進行了特徵選擇。
當維數較大樣本較少,容易陷入過擬合。
故加入正則項。
而L1範數是比L2更容易得到更稀疏的解的,也就是說w中0更多。也就是選擇了特徵。
p252 式11.7稱為LASSO
從而基於L1正則化的學習方法就是一種嵌入式特徵選擇方法
L1正則化問題的求解可使用近端梯度下降方法(PGD)。詳細原理見p253-254。
PGD可以使LASSO和其他基於L1範數最小化的方法得以快速求解。
11.5 稀疏表示與字典學習
閱讀更多 浮生偷閒 的文章