集成学习综述与代码实现_技术 _ 頭條網

1. 集成学习

定义

顾名思义，就是将多个单一模型进行组合，最后形成一个更好的模型的过程。之所以组合多个单一学习器，是因为很多时候单一学习器的效果不够理想，多个模型组合可以互帮互助，各取所长，从而能够更好的完成任务。集成学习一般的结构是先学习单一的学习器，之后通过某种策略将其组合在一起。

条件

（a）首先应该保证分类器之间的差异性，如果分类器都相同，那么组合的出来的结果是不会有变化的。

（b）每个个体分类器的精度必须大于0.5，如果个体分类器的精度低于0.5，那集成之后的精度低于规模的增大而降低。但如果精度是大于0.5的，最后的分类结果会趋于1。

分类

根据个体学习器的生成方式，目前的集成学习方法大致可以分成两类：第一类是单个学习器之间有着很强的依赖关系，需要以串行的序列化的方式生成，代表方法：Boosting。Boosting方法中也有很多分类:Adaboost、GBDT等等。第二类就是个体学习器之间不存在很强的依赖关系，学习器可以并行生成，代表方法：Bagging 和Random Forest。

2. Bagging和Boosting

2.1 Bagging

Bagging又称为套袋法：

每次从样本集合中有放回地抽取n个值，一共抽取k轮，形成k个训练集合，训练集合之间彼此独立。对于分类问题，k个训练器可以训练出k个模型，从而产生k个结果，对于回归问题，取均值作为预测结果。

2.2 Boosting

梯度提升的Boosting方法则是使用代价函数对上一轮训练的损失函数f的偏导数来拟合残差。

2.3 Bagging和Boosting的区别

训练数据集

Bagging是每次从样本集中有放回地抽取n个样本，抽取k次，形成k个样本集合，样本集合之间相互独立；

Boosting则是训练集合保持不变，每次变化的是训练集中样例的权重。

样例权重

Bagging使用的是均匀采样，每个样例权重相等；

Boosting根据上一轮结果调整权重，错误率越大权重越大。

预测函数

Bagging所有的预测函数权重相同；

Boosting预测函数权重不同，预测误差小的权重越大。

并行计算

Bagging各个预测函数可以并行生成；

Boosting只能顺序生成，因为后一个预测要用到上一个结果。

2.4 样本权值和模型权值

Boosting会减小在上一轮正确样本的权重，增大错误样本的权重(因为正确样本残差小，错误样本残差大。组合模型的时候会将错误率高的模型赋予低的权重，将错误率低的模型赋予高的权重，有助于增加组合后模型准确率。

3. 组合模型方式

3.1 平均法

（a）简单平均

将所有的个体学习器的数值型输出求平均。

（b）加权平均

各个学习器有自身的权重，根据权重来进行加权平均，代表算法：Adaboost。

3.2 学习法

当训练数据很多时，更加强大的结合策略就是学习法，也就是通过另一个学习器来进行组合。典型代表是Stacking。把个体学习器称之为初级学习器，用于结合的学习器称为次级学习器或者元学习器。

Stacking先从初始训练集训练出初级学习器，然后生成一个新的数据集来训练次级学习器。新的数据集是以初级学习器的输出作为样例，初始样本的标记被当做样例标记。

4. AdaBoost算法

4.1 核心思想

权值的更新取决于上一轮训练结果，增大误分类的样本的权值，减小正确分类的样本权值，在下一轮训练的时候误分类样本会得到更多的关注，正确分类的样本得到的关注变少。因为每次挑选的是误差最小的分类器，增大误分类的样本的权重相当于增大当前分类器的误差,错误率高的分类器对应小权重，错误率低的分类器对应大权重。

4.2 前向分步算法

简单来说就是从前向后，每次只学习一个基函数，最后通过基函数的线性组合，去逼近优化目标函数。

4.3 算法步骤

AdaBoost的Python实现（iris数据集）

import os
import numpy as np
import pandas as pd
from sklearn.cross_validation import train_test_split
from sklearn.datasets import load_iris
def load_data():
iris = load_iris()#导入数据
#转换为dataframe
df = pd.DataFrame(iris.data,columns=iris.feature_names)
df['label'] = iris.target#导入标签
#把0和1类拿出来
df.columns = ['sepal length','sepal width','petal length','petal width','label']#重命名列名
data = np.array(df.iloc[:100,[0,1,-1]])#前100行为分类为0和1两类
#把为0的变成-1
for i in range(len(data)):
if data[i,-1]==0:#把0类的转换为-1类
data[i,-1] = -1
return data[:,0:2],data[:,-1]
X,y = load_data()#导入数据
train_x,test_x,train_x,train_y = train_test_split(X,y,test_size=0.2,random_state=2333)#划分训练集和测试集
#定义Adaboost类
class Adaboost(object):
def __init__(self,n_estimators=1,learning_rate = 0):
'''
n_estimators 分类器个数
learning_rate 步长
'''
self.n_estimate = n_estimators
self.learning_rate = learning_rate
def init_data(self,X,y):
'''
X：属性

y：标签
'''
self.M,self.N = X.shape#属性一共有M行N列
self.X = X#训练属性
self.y = y#标签数据
self.w = [1.0/self.M]*self.M#初始化权重为1/M
self.alpha = []
self.clf_set = []#模型参数集合
def _alpha(self,error):#误差越大 alpha值越小
return 0.5*np.log((1-error)/error)
def _Z(self, weights, a, clf):
'''
a:各个分类器的权重
weights:权重
clf:compare_array
'''
return sum([weights[i]*np.exp(-1*a*self.y[i]*clf[i]) for i in range(self.M)])
def _w(self, a, clf, Z):#相当于给权重w做了一层softmax 归一化
'''
a:各个分类器的权重
weights:权重
clf:compare_array
误分类self.y[i]*clf[i]=1权重增大正确分类self.y[i]*clf[i]=-1权重变小
'''
for i in range(self.M):
self.w[i] = self.w[i]*np.exp(-1*a*self.y[i]*clf[i])/ Z
#具体算法
def G(self,feature,label,weights):#每次更新的是w
#求出属性列中的最大值和最小值
f_min = min(feature)
f_max = max(feature)
#在属性列上迭代的次数
n_step = (f_max-f_min+self.learning_rate)//self.learning_rate
error = 10000.0#定义为无穷大
best_v = 0.0#表示属性中最好分类点的值
direct,compare_array = None,None
#direct表示优化方向

#compare_array表示该方向对应的c_o_positive or c_o_negative数组
for i in range(1,int(n_step)):
v = f_min+self.learning_rate*i#每次增加的步长为learning_rate
if v not in feature:#如果v不存在属性列中
c_o_positive = np.array([1 if feature[k] > v else -1 for k in range(len(feature))])#大于v的label置为1 小于v的置为-1
#print([weights[k] for k in range(len(feature)) if c_o_positive[k]!=label[k]])
error_positive = sum([weights[k] for k in range(len(feature)) if c_o_positive[k]!=label[k]])#记录不等于label的weight并求和
c_o_negative = np.array([-1 if feature[k] > v else 1 for k in range(len(feature))])#同上但反向
error_negative = sum([weights[k] for k in range(len(feature)) if c_o_negative[k]!=label[k]])
if error_positive < error_negative:#如果正向误差小于反向误差
weight_error = error_positive#记录误差
_compare_array = c_o_positive
direct = 'positive'
else:
weight_error = error_negative
_compare_array = c_o_negative
direct = 'negative'
if weight_error < error:
error = weight_error#记录误差
best_v = v#记录最佳分类值
compare_array = _compare_array#记录label
return best_v,error,compare_array,direct
def _G(self,x,v,direct):
if direct=='positive':
return 1 if x > v else -1
else:
return -1 if x>x else -1
def fit(self,X,y):
self.init_data(X,y)#初始化类内参数
for i in range(self.n_estimate):#迭代次数
best_clf_error,best_v,clf_result = 100000,None,None
#单个属性
for j in range(self.N):#在属性列上迭代
feature = self.X[:,j]#
v,error,compare,direct = self.G(feature,self.y,self.w)
if error<best> best_clf_error = error
best_v = v
final_direct = direct
clf_result = compare
axis = j

if best_clf_error == 0:
break
a = self._alpha(best_clf_error)#计算alpha 0.5*np.log((1-error)/error)
self.alpha.append(a)#记录alpha
z = self._Z(self.w,a,clf_result)
self.clf_set.append((axis,best_v,final_direct))#clf_set集合
self._w(a,clf_result,z)#修改self.w
def predict(self,feature):#预测函数（比较简单）
result = 0.0
for i in range(len(self.clf_set)):
axis,best_v,final_direct = self.clf_set[i]
f = feature[axis]
result += self.alpha[i] * self._G(f,best_v,final_direct)
return 1 if result >0 else -1
def score(self,X_test,y_test):#打分函数（比较简单）
count = 0
for i in range(len(X_test)):
feature = X_test[i]
if self.predict(feature) == y_test[i]:
count += 1
return count/len(X_test)
/<best>

相關文章:

学习大数据分析python编程指南

spring boot 集成 websocket 实现消息主动

Nexus3 集成 crowd 插件

Python10大 数据科学利器，你了解几个呢？

致C++完美主义者：使用Visual Studio新工具分析你的代码

SpringBoot 集成 Apollo 配置中心，一文搞定！（万字长文）

嵌入式入门-从STM32CudeMX、FreeRtos、Proteu仿真开始

嵌入式开发入门-从STM32CudeMX、FreeRtos、Proteu仿真开始

springboot集成shiro，手写SSO单点登录的分布式框架

03.07 如何搭建个人网站？

Springboot集成Swagger2

Spring Boot 2.X(六)：Spring Boot 集成 Redis

HBase 集成 Phoenix 构建二级索引实践

SpringBoot 集成 Protocol Buffer案例

01.22 SpringBoot 集成 Protocol Buffer案例

Spring Boot 集成 Seata 解决分布式事务问题

软件测试四阶段：单元、集成、系统以及验收测试

一文带你了解 OAuth2 协议与 Spring Security OAuth2 集成

01.08 一文带你了解 OAuth2 协议与 Spring Security OAuth2 集成

12.24 使用 Spring Boot 集成 FastDFS

10款最佳的MySQL GUI工具，数据库管理员的好帮手

Spring Boot 集成 Ehcache 缓存，三步搞定

Intellij IDEA 高级用法之：集成 JIRA、SSH、FTP、Database管理、UML类图插件

Spring Boot WebFlux 集成 Mongodb 数据源操作

10.06 基于SpringBoot2的开源管理后台系统springboot-plus

手把手教你使用shiro认证，授权，权限控制，Spring boot 集成

flask实际操刀之临阵磨枪

介绍 Linux 文件系统：这些目录你都认识吗？

Spring Boot 2 快速教程：WebFlux 集成 Thymeleaf（五）

基于Spring Security和 JWT的权限系统设计

消息中间件RabbitMQ入门详解

Electron 4.0 稳定版发布，集成 Node 10 和 Chromium 69

一起学 SpringBoot 2.x｜第十篇：使用 Spring Cache 集成 Redis

微服务架构实战篇（三）：Spring boot2.0 集成 PageHelper

spring boot 之 mybatis 集成

SpringBoot+zk+dubbo架构实践（二）：SpringBoot 集成 zookeeper

Spring boot 集成 RabbitMQ

第二章 IoC容器和Bean配置

运算里不得不说的python模块—math

Devops度量--DevOps 现状快速检查表

SOP是什么（解读）

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

DNS侦查工具

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

（必收藏系列）Linux面试题——命令集

五分钟学会如何在 IPFS 上部署网站

「正点原子NANO STM32F103开发板资料连载」第29章 内存管理实验

小白怎么学Web前端开发 如何成为技术达人

如何开发一个web静态服务器

学Java编程还有前景吗 如何才能拿到高薪

Python网络爬虫之配置篇（一）

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

Python的运行效率太低？几行代码快速提升！

python的优点是什么？最新Python400集视频（附教程）

MySQL中OOM故障应如何下手-爱可生

像专家一样使用 panic

30种不同的编程语言怎么写“Hello, World”

percona QAN 介绍

面试官：你可以用纯CSS判断鼠标进入的方向吗？

网络工程师职业生涯中，哪两点是最重要的？

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

Hive分桶表

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

第一章 Spring Framework概述

opencv人工智能深度学习这样实现人脸的年龄检测

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

深入了解ProcessFunction的状态操作(Flink-1.10)

Python10大数据科学利器，你了解几个呢？

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

小白怎么学Web前端开发如何成为技术达人

学Java编程还有前景吗如何才能拿到高薪