機器學習中的特徵選擇和特徵提取：概述

2018-07-20 10:22:35 不靠譜的貓

機器學習的重要方面包括“ 特徵選擇 ”和“ 特徵提取 ”。

機器學習中的特徵選擇與特徵提取

什麼是特性選擇(或變量選擇)?

選擇學習算法的輸入變量的某個子集的問題，它應該將注意力集中在這個子集上，而忽略其餘的。換句話說，降維。作為人類，我們經常這樣做!

什麼是特徵選擇（或變量選擇）？

數學上講，

在給定一組特徵F = {f1，…，fi，…，fn}的情況下，特徵選擇問題是找到一個“最大限度提高學習者分類模式能力”的子集
F '應該最大化一些得分函數
這個通用定義包含特徵選擇(即特徵選擇算法也執行映射，但只能映射到輸入變量的子集)

特徵選擇:兩種思想流派

關於特徵選擇有兩種觀點

雖然上述兩種思想共存，但我們將重點放在特徵選擇的動機上。

特別是在處理大量變量時，需要降維
特徵選擇可以顯著提高學習算法的性能

維度的詛咒

所需的樣本數量(為了達到同樣的精度)隨變量的數量呈指數增長。

在實踐中:訓練例子的數量是固定的。

分類器的性能通常會因為大量的特性而降低

在許多情況下，丟棄變量所丟失的信息是由較低維度空間中的更精確的映射/抽樣所彌補的。

特徵選擇 - 最優性？

理論上，目標是找到最佳特徵子集（最大化評分函數的子集）。

在實際應用中，這通常是不可能的。

對於大多數問題，搜索可能的特徵子集的整個空間在計算上是難以處理的

通常必須滿足最佳子集的近似值

該領域的大部分研究致力於尋找有效的搜索 - 啟發式方法

最佳特徵子集：

通常，根據分類器的性能來定義最佳特徵子集
理論上最好的是希望貝葉斯誤差率

特徵相關性

在文獻中有幾種相關的定義。

1個變量的相關性，給定其他變量的相關性，給定學習算法的相關性。
大多數定義都是有問題的，因為有一些問題是所有的特性都被聲明為不相關的
這可以通過兩個相關性來定義:弱相關性和強相關性。
一個特徵可能是相關的、弱相關、強相關或者不相關（冗餘）。

變量/特徵的強相關性：

設Si = {f1，...，fi-1，fi + 1，... fn}是除fi之外的所有特徵的集合。用si表示對Si中所有特徵的值賦值。

特徵fi是強相關的，如果存在一些xi，y和si，其中p（fi = xi，Si = si）> 0，使得

p（Y = y | fi = xi; Si = si）≠p（Y = y | Si = si）

這意味著單獨移除fi將總是導致最佳貝葉斯分類器的性能下降。

變量/特徵的弱相關性：

特徵fi是弱相關的，如果它不是非常相關的，並且存在Si的特徵Si'的子集，其中存在一些xi，y和si'，其中p（fi = xi，Si'= si'）> 0這樣

p（Y = y | fi = xi; Si'= si'）≠p（Y = y | Si'= si'）

這意味著，存在特徵的一個子集的Si“使得在最佳的貝葉斯分類器的性能的Si”是差於Si’ U { fi }

總結

特性選擇可以顯著提高學習算法的性能(準確性和計算時間)——但這並不容易!
相關性< - >最優

分享到:

閱讀更多 不靠譜的貓 的文章

關鍵字: 數學技術子集

機器學習——Linear Regression 線性迴歸

機器學習：降維技術完整指南

機器學習——詳解KD-Tree來龍去脈

機器學習-數據降維

機器學習—CER字錯率計算

機器學習——詳解經典聚類算法Kmeans

機器學習：潛在語義分析

機器學習：主成分分析

機器學習 KNN 算法之手寫數字識別

機器學習：隱馬爾可夫模型（HMM）

機器學習：支持向量機

機器學習：初始點對優化的影響

03.06 機器學習：初始點對優化的影響

機器學習-SVM實例

03.04 機器學習—主成分分析（PCA）實戰演練

機器學習、深度學習入門教材課程

機器學習：概述

03.01 機器學習：概述

機器學習-聚類分析代碼解析

機器學習：如何在Kafka應用程序中部署一個分析模型進行實時預測

機器學習-淺談神經網絡和Keras的應用

12.13 機器學習：AutoGluon介紹及示例

機器學習——正則化

機器學習&深度學習基礎（tensorflow版本實現的算法概述0）

機器學習-Faster RCNN中的RPN網絡

機器學習-目標檢測(Object Detection)的評估指標mAP

機器學習-Faster RCNN的損失函數(Loss Function)

機器學習：感知機學習算法

機器學習-邏輯迴歸

機器學習-廣義線性模型

機器學習 — 最大似然估計的應用

機器學習：什麼是預測模型性能評估

機器學習：處理不平衡數據的5個重要技術

AI 機器學習、深度學習模型調優方法及方向

機器學習：Logistic迴歸背後的數學

機器學習：帶你瞭解決策樹

機器學習：梯度下降和正規方程

機器學習：Word嵌入和Word2Vec簡介

機器學習：使用TensorFlow構建LSTM模型詳細教程

機器學習：葡萄酒質量預測模型教程

「機器學習」權重初始化的幾個方法

前輩說先學會了這些Python知識點，再談學習人工智慧、機器學習

機器學習：TensorFlow中的L1正則化

機器學習：使用時間序列預測的Bitcoin Price預測模型