Ensemble Methods 集成學習方法
Created: Apr 14, 2020 5:29 PM
Ensemble 集成學習
集成學習是關於我們如何組合現有的模型,從而使這些模型的組合比單個模型更好地進行預測。
用於改進集成方法的另一種方法是在將高方差算法組合在一起之前將其引入隨機性。隨機性的引入消除了這些算法過度擬合(或直接擬合到可用數據)的趨勢。引入隨機性的主要方法有兩種:
Bootstrap the data(引導數據)-也就是說,對數據進行替換和擬合以對算法進行採樣,並使算法與採樣數據相適應。
Subset the features(對特徵進行子集化)-在決策樹的每個拆分中或在使用每種算法的情況下,僅使用全部可能特徵的子集。
Bagging
Bagging = Bootstrap+Aggregating
1、通過Bootstrap sampling創建隨機的數據子集
2、在每個引導樣本上訓練
3、對多個模型預測的結果進行投票
Boosting
根據先前學習者的錯誤來訓練下一個學習者。 經過多次迭代,boosting算法將這些弱學習者組合為一個強預測規則
Boosting
1、Boosting是一個序列集成學習方法,其中的基礎學習器是按順序生產的,每個學習器都是在建立在前一個學習器上
2、錯誤預測的觀測值會被加權,因此其中一些觀測值會更頻繁地參與新的觀測值
3、最終的結果使用加權平均,對在訓練數據上表現更好的人使用更多的權重
Bagging
1、Bagging是並行的集成學習方法,基礎學習器是並行生成的。
2、通過隨機抽樣生成N個新的訓練數據集,並從原始數據集中進行替換。 通過替換採樣,可以在每個新的訓練數據集中重複一些觀察。
3、通過平均N個學習者的回答(或多數表決)獲得結果。
AdaBoost
Adaptive Boosting
根據公式計算三個模型的權重,第一個模型,正確分類的個數為5個紅色和2個藍色為7,錯誤分類3個藍色。
由於第一個分類三個藍色的點被錯誤分類,所以他們的權重變成了7/3=2.33,所以第二個模型,正確分類的個數為2.33*3+4=11,錯誤的是兩個藍色一個紅色是3。
由於第二個分類錯誤的有三個,所以是11/3=3.66,所以第三個分類器正確的是3.66*3+2.33*3+1=19 錯誤的分類是3,所以權重根據公式可以計算除是1.84
播放
暫停
進入全屏
退出全屏
00:00
00:00
重播請
刷新
試試