Bagging與Boosting的區別與聯絡

baggging 和boosting都是模型融合的方法，可以將弱分類器融合之後形成乙個強分類器，而且融合之後的效果會比最好的弱分類器更好。

boosting與bagging不同的是，bagging是多個模型「並行」，voting決定結果；而boosting是多個模型序列，通過多個模型的結果相加得到最終的結果。

adaboosting方式每次使用的是全部的樣本，每輪訓練改變樣本的權重。下一輪訓練的目標是找到乙個函式f 來擬合上一輪的殘差。當殘差足夠小或者達到設定的最大迭代次數則停止。boosting會減小在上一輪訓練正確的樣本的權重，增大錯誤樣本的權重。（對的殘差小，錯的殘差大）

梯度提公升的boosting方式是使用代價函式對上一輪訓練出的模型函式f的偏導來擬合殘差。

1. 訓練集

2. 樣本權重

3）弱分類器權重

4）平行計算

這個問題我給出乙個簡單的解釋並沒有嚴謹的數學證明，（其他部落格給出的數學證明我也沒看懂，，）

首先需要理解什麼是variance什麼是bias，這有一張圖可以清楚的展示兩者的差別。

這張圖來自李巨集毅老師機器學習課程中的一張ppt截圖，很清楚的展示了variance和bias的區別，兩者是在兩個維度上產生error，bias是這個估計是有偏的，不是無偏估計，而variance表示對某點的估計過於的散開不夠集中。這兩者都會使模型產生error。

所以現在已經知道了bagging和boosting可以很大程度上降低error，只不過bagging是通過減少variance從而減少error，而boosting是通過減少bias從而很大程度上降低error。

為什麼？

從這張圖可以看出boosting是如何減小bias的。上面說了boosting是基於殘差的訓練，每次都根據上一次訓練留下來的殘差訓練出新的模型，如圖中上側的過程所示，棕色線表示每次訓練的殘差，藍色點表示每次訓練完成後的模型累加上之前的模型的**情況，可以看到逐步減少bias的過程。

從這張圖可以看出來bagging是通過減少variance的，中心的紅點表示真實值。綠圈中的紅點表示多次取樣形成的不同資料集，從而訓練出不同的模型，然後對新資料**後多個模型取平均，就到達了藍點的位置，這展示了bagging如何減少variance的過程，這張圖可能畫的不是很恰當。就是說很多弱分類器取平均像是乙個互相修正的過程，從而使得**結果更集中，從而減少variance。

從而引出了另乙個問題：

因為過擬合往往導致variance過大，而bagging可以減少variance；欠擬合往往導致bias過大，而boosting可以減少bias。這裡有一張圖可以很清楚的展示。

Bagging與Boosting的區別與聯絡

機器學習（五） Bagging與Boosting

整合學習之bagging和boosting

Bagging與隨機森林

Bagging與Boosting的區別與聯絡

機器學習（五） Bagging與Boosting

整合學習之bagging和boosting

Bagging與隨機森林

相關推薦