Ensemble Methods 集成学习方法
Created: Apr 14, 2020 5:29 PM
Ensemble 集成学习
集成学习是关于我们如何组合现有的模型,从而使这些模型的组合比单个模型更好地进行预测。
用于改进集成方法的另一种方法是在将高方差算法组合在一起之前将其引入随机性。随机性的引入消除了这些算法过度拟合(或直接拟合到可用数据)的趋势。引入随机性的主要方法有两种:
Bootstrap the data(引导数据)-也就是说,对数据进行替换和拟合以对算法进行采样,并使算法与采样数据相适应。
Subset the features(对特征进行子集化)-在决策树的每个拆分中或在使用每种算法的情况下,仅使用全部可能特征的子集。
Bagging
Bagging = Bootstrap+Aggregating
1、通过Bootstrap sampling创建随机的数据子集
2、在每个引导样本上训练
3、对多个模型预测的结果进行投票
Boosting
根据先前学习者的错误来训练下一个学习者。 经过多次迭代,boosting算法将这些弱学习者组合为一个强预测规则
Boosting
1、Boosting是一个序列集成学习方法,其中的基础学习器是按顺序生产的,每个学习器都是在建立在前一个学习器上
2、错误预测的观测值会被加权,因此其中一些观测值会更频繁地参与新的观测值
3、最终的结果使用加权平均,对在训练数据上表现更好的人使用更多的权重
Bagging
1、Bagging是并行的集成学习方法,基础学习器是并行生成的。
2、通过随机抽样生成N个新的训练数据集,并从原始数据集中进行替换。 通过替换采样,可以在每个新的训练数据集中重复一些观察。
3、通过平均N个学习者的回答(或多数表决)获得结果。
AdaBoost
Adaptive Boosting
根据公式计算三个模型的权重,第一个模型,正确分类的个数为5个红色和2个蓝色为7,错误分类3个蓝色。
由于第一个分类三个蓝色的点被错误分类,所以他们的权重变成了7/3=2.33,所以第二个模型,正确分类的个数为2.33*3+4=11,错误的是两个蓝色一个红色是3。
由于第二个分类错误的有三个,所以是11/3=3.66,所以第三个分类器正确的是3.66*3+2.33*3+1=19 错误的分类是3,所以权重根据公式可以计算除是1.84
播放
暂停
进入全屏
退出全屏
00:00
00:00
重播
请
刷新
试试