机器学习算法：特征选择神器FeatureSelector

2019-12-10 10:30:50 邵寒峰

主要内容：

为什么要进行特征选择？
什么是特征选择？
怎么进行特征选择

特征选择：

在现实生活中，一个对象往往具有很多属性（以下称为特征），这些特征大致可以被分成三种主要的类型：

相关特征：对于学习任务（例如分类问题）有帮助，可以提升学习算法的效果；

无关特征：对于我们的算法没有任何帮助，不会给算法的效果带来任何提升；

冗余特征：不会对我们的算法带来新的信息，或者这种特征的信息可以由其他的特征推断出；

但是对于一个特定的学习算法来说，哪一个特征是有效的是未知的。因此，需要从所有特征中选择出对于学习算法有益的相关特征。而且在实际应用中，经常会出现维度灾难问题，尤其是在文本处理中。例如，可以把一篇文档表示成一个词向量，但是往往会使用所有的单词作为字典，因此对于一篇可能仅仅包含100或者200个单词的文档，可能需要上万的维度（也就是特征）。如果可以从中选择一部分相关特征构建模型，这个问题就可以得到一定程度的解决。所以，特征选择和降维有一定的相似之处。另外，从上面的例子中可以发现，如果只选择所有特征中的部分特征构建模型，那么可以大大减少学习算法的运行时间，也可以增加模型的可解释性。

因此，进行特征选择的主要目的：

降维
降低学习任务的难度
提升模型的效率

定义：

从N个特征中选择其中M（M

特征选择想要做的是：选择尽可能少的子特征，模型的效果不会显著下降，并且结果的类别分布尽可能的接近真实的类别分别。机器学习

特征选择的过程：

对于一个有N个特征的对象，可以产生2^N个特征子集，特征选择就是从这些子集中选出对于特定任务最好的子集。特征选择主要包括四个过程：

生成过程：生成候选的特征子集；
评价函数：评价特征子集的好坏；
停止条件：决定什么时候该停止；

验证过程：特征子集是否有效；

生成过程其实是一个搜索过程，这个过程可以从以下几种情况开始：

1.没有特征；

2.所有特征；

3.随机特征子集。

在前两种情况下，每次迭代可以增加、删除特征；但是在最后一种情况下，每次迭代随机增加或者删除特征。

评价函数用来评价生成过程中生成的特征子集，产生一个值用来比较当前特征子集和当前最优特征子集，如果这个特征子集更好，那么就取代当前最优子集。

停止条件用来决定迭代过程什么时候停止，生成过程和评价函数可能会对于怎么选择停止条件产生影响。停止条件有以下四种选择：

达到预定义的最大迭代次数；

达到预定义的最大特征数；

增加（删除）任何特征不会产生更好的特征子集；

根据评价函数，产生最优特征子集；

验证过程并不是特征选择本身的一部分，但是选择出的特征必须是有效。因此，需要使用不同的测试集、学习方法验证选择出来的特征子集，然后比较这些验证结果。

生成过程：

生成过程是一个搜索过程，这个过程主要有以下三个策略：

完全搜索：根据评价函数做完全搜索。完全搜索主要有两种：穷举搜索和非穷举搜索;
启发式搜索：根据一些启发式规则在每次迭代时，决定剩下的特征是应该被选择还是被拒绝。这种方法很简单并且速度很快，因为它的搜索空间是O(n^2);
随机搜索：每次迭代时会设置一些参数，参数的选择会影响特征选择的效果。由于会设置一些参数（例如最大迭代次数），所以搜索空间也远远小于O(2^n);

评价函数：

评价函数主要用来评价选出的特征子集的好坏，一个特征子集是最优的往往指相对于特定的评价函数来说的。评价函数主要用来度量一个特征（或者特征子集）可以区分不同类别的能力。根据具体的评价方法主要有三类：

过滤式（filter): 先进行特征选择，然后去训练学习器，所以特征选择的过程与学习器无关。相当于先对于特征进行过滤操作，然后用特征子集来训练分类器。
包裹式（wrapper）：直接把最后要使用的分类器作为特征选择的评价函数，对于特定的分类器选择最优的特征子集。
Filter和Wrapper组合式算法：先使用Filter进行特征选择，去掉不相关的特征，降低特征维度；然后利用Wrapper进行特征选择。

嵌入式（embedding）：把特征选择的过程与分类器学习的过程融合一起，在学习的过程中进行特征选择。最常见的使用L1正则化进行特征选择。

一般有5种比较常见的评价函数：

距离度量：如果 X 在不同类别中能产生比 Y 大的差异，那么就说明 X 要好于 Y;
信息度量：主要是计算一个特征的信息增益（度量先验不确定性和期望后验不确定性之间的差异）；
依赖度量：主要用来度量从一个变量的值预测另一个变量值的能力。最常见的是相关系数：用来发现一个特征和一个类别的相关性。如果 X 和类别的相关性高于 Y与类别的相关性，那么X优于Y。对相关系数做一点改变，用来计算两个特征之间的依赖性，值代表着两个特征之间的冗余度。
一致性度量：对于两个样本，如果它们的类别不同，但是特征值是相同的，那么它们是不一致的；否则是一致的。找到与全集具有同样区分能力的最小子集。严重依赖于特定的训练集和最小特征偏见（Min-Feature bias）的用法；找到满足可接受的不一致率（用户指定的参数）的最小规模的特征子集。
误分类率度量：主要用于Wrapper式的评价方法中。使用特定的分类器，利用选择的特征子集来预测测试集的类别，用分类器的准确率来作为指标。这种方法准确率很高，但是计算开销较大。

特征选择算法：

根据上面的三种不同的搜索策略和五种不同的评价函数，会有很多具体的特征选择算法。以下是主要的分类：

照三种不同的搜索策略，简单介绍几种具体的算法：

完全搜索：

广度优先搜索（Breadth First Search）

主要采用完全搜索策略和距离度量评价函数。使用广度优先算法遍历所有可能的特征子集，选择出最优的特征子集。

分支界限搜索（Branch & Bound）

主要采用完全搜索和距离度量。B&B从所有的特征上开始搜索，每次迭代从中去掉一个特征，每次给评价函数的值一个限制条件。因为评价函数满足单调性原理（一个特征子集不会好于所有包含这个特征子集的更大的特征子集），所以如果一个特征使得评价函数的值小于这个限制，那么就删除这个特征。类似于在穷举搜索中进行剪枝。

定向搜索（Beam Search）

主要采用完全搜索策略和误分类率作为评价函数。选择得分最高的特征作为特征子集，把它加入到一个有长度限制的队列中，从头到尾依次是性能最优到最差的特征子集。每次从队列总取得分最高的子集，然后穷举向该子集中加入一个特征后所有的特征集，按照得分把这些子集加入到队列中。

最优优先搜索（Best First Search）

和定位搜索类似，不同点在于不限制队列的长度。

启发式搜索

序列前向选择（SFS , Sequential Forward Selection）

使用误分类率作为评价函数。从空集开始搜索，每次把一个特征加入到这个特征子集中，使得评价函数达到最优值。如果候选的特征子集不如上一轮的特征子集，那么停止迭代，并将上一轮的特征子集作为最优的特征选择结果。

广义序列前向选择（GSFS ，Generalized Sequential Forward Selection）

该方法是SFS算法的加速算法，它可以一次性向特征集合中加入r个特征。在候选特征中选择一个规模为r的特征子集，使得评价函数取得最优值。

序列后向选择（SBS , Sequential Backward Selection）

把误分类率作为评价函数。从特征的全集开始搜索，每次从特征子集中去掉一个特征，使得评价函数达到最优值。

SFS和SBS都属于贪心算法，它们仅考虑使本轮选定集最优，因此容易陷入局部最优。

广义序列后向选择（GSBS，Generalized Sequential Backward Selection）

该方法是SBS的加速，可以一次性的从特征子集中去除一定数量的特征。是实际应用中的快速特征选择算法，性能相对较好。但是有可能消除操作太快，去除掉重要的信息，导致很难找到最优特征子集。

双向搜索（BDS , Bi-directional Search）

分别使用SFS和SBS同时进行搜索，只有当两者达到一个相同的特征子集时才停止搜索。为了保证能够达到一个相同的特征子集，需要满足两个条件：

被SFS选中的特征不能被SBS去除；

被SBS去除的特征就不能SFS选择；

增L去R选择算法（LRS , Plus L Minus R Selection）

采用误分类率作为评价函数。允许特征选择的过程中进行回溯，这种算法主要有两种形式：

当L>R时，是一种自下而上的方法，从空集开始搜索，每次使用SFS增加L个特征，然后用SBS从中去掉R个特征；

当L

序列浮动选择（Sequential Floating Selection）

和增L去R算法类似，只不过序列浮动算法的L和R不是固定的，每次会产生变化，这种算法有两种形式：

序列浮动前向选择（SFFS , Sequential Floating Forward Selection）:从空集开始搜索，每次选择一个特征子集，使得评价函数可以达到最优，然后在选择一个特征子集的子集，把它去掉使得评价函数达到最优；

序列浮动后向选择（SFBS , Sequential Floating Backward Selection）:从特征全集开始搜索，每次先去除一个子集，然后在加入一个特征子集。

决策树算法（DTM , Decision Tree Method）

采用信息增益作为评价函数。在训练集中使用C4.5算法，等到决策树充分增长，利用评价函数对决策树进行剪枝。最后，出现在任意一个叶子节点的路径上的所有特征子集的并集就是特征选择的结果。

分享到:

閱讀更多 邵寒峰 的文章

關鍵字: 神器机器学习算法

机器学习——Linear Regression 线性回归

机器学习：降维技术完整指南

机器学习——详解KD-Tree来龙去脉

机器学习-数据降维

机器学习—CER字错率计算

机器学习——详解经典聚类算法Kmeans

机器学习：潜在语义分析

机器学习：主成分分析

机器学习 KNN 算法之手写数字识别

机器学习：隐马尔可夫模型（HMM）

机器学习：支持向量机

机器学习：初始点对优化的影响

03.06 机器学习：初始点对优化的影响

机器学习-SVM实例

03.04 机器学习—主成分分析（PCA）实战演练

机器学习、深度学习入门教材课程

机器学习：概述

03.01 机器学习：概述

机器学习-聚类分析代码解析

机器学习：如何在Kafka应用程序中部署一个分析模型进行实时预测

机器学习-浅谈神经网络和Keras的应用

12.13 机器学习：AutoGluon介绍及示例

机器学习——正则化

机器学习&深度学习基础（tensorflow版本实现的算法概述0）

机器学习-Faster RCNN中的RPN网络

机器学习-目标检测(Object Detection)的评估指标mAP

机器学习-Faster RCNN的损失函数(Loss Function)

机器学习：感知机学习算法

机器学习-逻辑回归

机器学习-广义线性模型

机器学习 — 最大似然估计的应用

机器学习：什么是预测模型性能评估

机器学习：处理不平衡数据的5个重要技术

AI 机器学习、深度学习模型调优方法及方向

机器学习：Logistic回归背后的数学

机器学习：带你了解决策树

机器学习：梯度下降和正规方程

机器学习：Word嵌入和Word2Vec简介

机器学习：使用TensorFlow构建LSTM模型详细教程

机器学习：葡萄酒质量预测模型教程

「机器学习」权重初始化的几个方法

前辈说先学会了这些Python知识点，再谈学习人工智能、机器学习

机器学习：TensorFlow中的L1正则化

机器学习：使用时间序列预测的Bitcoin Price预测模型

机器学习：如何计算CNN中的参数数量？

机器学习-模型的评估和选择

05.15 机器学习-我妈妈也能看懂的入门篇

数据科学家基础能力——机器学习

第二章 IoC容器和Bean配置

bean是一个对象，它是由Spring

运算里不得不说的python模块—math

Help

Devops度量--DevOps 现状快速检查表

今天主要分享一个DevOps

SOP是什么（解读）

SOP不是单个的，是一个体系，虽然我们可以单独地定义每一个SOP，但真正从企业管理来看，SOP不可能只是单个的，必然是一个整体和体系，也是企业不可或缺的。

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

随着终端设备的越来越多，人工干预配置IP地址，不仅工作效率低，而且，还很容易导致IP冲突，影响正常的网络访问。到此已经完成了，DHCP服务的配置了，我们可以在终端验证。

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

这两天分析了一下头条文章网页的源文件，现在将分析的结果分享给大家。首先以一篇文章为例，其网址如下：https://www.toutiao.com/i6822245428176617998/如上图网页所示，文章中包含文字和图片。

DNS侦查工具

我们只需要打开浏览器输入例如:www.baidu.com就可以解析到该网站.为了便于记住不需要输入长长的IP地址去访问这就是DNS域名解析.关于域名域名的层次划分用点来分割这时DNS把相对应的域名解析成IP地址高的在右边.例如:www. NS简介访问某网站的时候最低在左边

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

Create

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

最后一个要介绍的命令是

（必收藏系列）Linux面试题——命令集

关注，后台私信【Linux】分享Linux入门到进阶电子书、Linux入门到精通视频教程（免费）。文件管理命令cat

五分钟学会如何在 IPFS 上部署网站

原文标题:五分钟学会如何在

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

1）实验平台：【正点原子】

小白怎么学Web前端开发如何成为技术达人

Web前端开发工程师已经成为了很多年轻人心中的理想工作，不仅入行门槛低、而且薪资待遇和发展前景都不错，自然吸引了大批人加入行业。

如何开发一个web静态服务器

我们都知道如今的web服务器有很多，比如著名的有apache，有nginx，有tomcat，有resin服务器，有sphere，有iis服务器等等，这些服务器都能提供web服务，并且几乎都能和多种语言进行搭配使用，那么一个web服务器都需要那些功能，开发一个web服务器都需要那些

学Java编程还有前景吗如何才能拿到高薪

需求大、薪资高似乎是Java开发人员的标签，不过学Java编程还有前景吗？它架构在操作系统之上，屏蔽了底层的差异，真正实现了“Writeonce run

Python网络爬虫之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的运行效率太低？几行代码快速提升！

return的就是是你所需要的结果2.3、运行这一步就是最后一步了，只要像下面一样输入上述函数名，赋予参数值，点击运行Run，就能得到你想要的结果arg1=5

python的优点是什么？最新Python400集视频（附教程）

2020，最新Python零基础到精通资料教材，干货分享，新基础Python教材，稳稳找到过万工作，看这里，这里有你想要的所有资源哦，最强笔记，教你怎么入门提升！获取方式：私信小编“

MySQL中OOM故障应如何下手-爱可生

作者：孙祚龙爱可生南区分公司交付服务部成员，实习工程师。负责公司产品问题排查及日常运维工作。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

像专家一样使用 panic

|go

30种不同的编程语言怎么写“Hello, World”

printfn

percona QAN 介绍

一、背景QAN慢查询日志分析工具是PMM

面试官：你可以用纯CSS判断鼠标进入的方向吗？

虽然没什么软用，但是对付面试官应该是够用了。感谢面试官提出的问题，让我实现了这个功能，对CSS

网络工程师职业生涯中，哪两点是最重要的？

网络工程师最重要的技能是扎实的基础和非常开放的思维，微观知识扎实、宏观能力突出。项目经验也会让网络工程师基础更牢靠，网络工程师是要实战的，要避免纸上谈兵，我认为对基础理论的理解，比你清楚配置更重要。

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

有关以太坊2.0

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

yuminstall

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

今天的你捉住IPFS机遇了吗？我们都知道在Filecoin网络中作为一名存储矿工，信誉对于我们是非常重要的——信誉越高，爆块几率越大。那么信誉系统现在怎么样了呢？

Hive分桶表

fieldsterminated

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

编辑Exchange

$【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库$

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

在阿里云控制台，我们能下载的文件是一个压缩包，解压之后，是.idb和.frm文件，你可能要问了，我可以直接把解压好的问题件覆盖到MySQL的data目录下吗？

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度学习这样实现人脸的年龄检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练，本期文章我们结合人脸识别的模型进行人脸年龄的检测人脸年龄的检测步骤1、首先需要进行人脸的检测2、把检测到的人脸数据给年龄检测模型去检测3、把检测结果呈现到图片上人脸年龄检测import

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

图8-1

深入了解ProcessFunction的状态操作(Flink-1.10)

先反思为何会有上述疑惑上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value，看懂了这些，其实也是在了解DataStream/DataSetAPI的设计思路：

Redis内存分析工具--rdr安装与使用

分析Redis

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

//getData发现前一个子节点被删除，抛出异常

一行代码提升迁移性能

论文原址：https://arxiv.org/pdf/2003.12237.pdf开源地址：https://github.com/cuishuhao/BNM在发表在CVPR2020

利用相似几何信息，做可泛化3D形状分割模型

更具体的有以下三种典型的分割方案：FullyConvolutional-Like

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

介绍SpeedCrunch是一款高精度科学计算器，具有快速，键盘驱动的用户界面。获取方式在GitHub上搜索SpeedCrunch，就可以去到

分布式缓存，真香

他是前易宝支付架构师、阿里云MVP、腾讯云

特征工程的力量

在本文中，我希望教给您一些有关特征工程的知识，以及如何使用它来对非线性决策边界进行建模。为了说明这一点，假设恢复时间与身高和体重具有以下关系：Y=β₀+β₁+β2+β₃+noise从第三项来看，我们可以看到Y与身高和体重没有线性关系。

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

public

SpringBoot如何优雅的使用RocketMQ

源码编译需要Maven3.2x，JDK8在根目录进行打包:Copymvn-Prelease-all

css代码规范工具stylelint

"mixin"