Bagging和Boosting的區別(面試準備)

2022-07-05 09:54:10 字數 1927 閱讀 8735

baggging 和boosting都是模型融合的方法,可以將弱分類器融合之後形成乙個強分類器,而且融合之後的效果會比最好的弱分類器更好。

bagging:

先介紹bagging方法:

bagging即套袋法,其演算法過程如下:

從原始樣本集中抽取訓練集。每輪從原始樣本集中使用bootstraping的方法抽取n個訓練樣本(在訓練集中,有些樣本可能被多次抽取到,而有些樣本可能一次都沒有被抽中)。共進行k輪抽取,得到k個訓練集。(k個訓練集之間是相互獨立的)

每次使用乙個訓練集得到乙個模型,k個訓練集共得到k個模型。(注:這裡並沒有具體的分類演算法或回歸方法,我們可以根據具體問題採用不同的分類或回歸方法,如決策樹、感知器等)

對分類問題:將上步得到的k個模型採用投票的方式得到分類結果;對回歸問題,計算上述模型的均值作為最後的結果。(所有模型的重要性相同)

boosting:

adaboosting方式每次使用的是全部的樣本,每輪訓練改變樣本的權重。下一輪訓練的目標是找到乙個函式f 來擬合上一輪的殘差。當殘差足夠小或者達到設定的最大迭代次數則停止。boosting會減小在上一輪訓練正確的樣本的權重,增大錯誤樣本的權重。(對的殘差小,錯的殘差大)

梯度提公升的boosting方式是使用代價函式對上一輪訓練出的模型函式f的偏導來擬合殘差。

bagging和boosting的區別:

1)樣本選擇上:

bagging:訓練集是在原始集中有放回選取的,從原始集中選出的各輪訓練集之間是獨立的。

2)樣例權重:

bagging:使用均勻取樣,每個樣例的權重相等

boosting:根據錯誤率不斷調整樣例的權值,錯誤率越大則權重越大。

3)**函式:

bagging:所有**函式的權重相等。

boosting:每個弱分類器都有相應的權重,對於分類誤差小的分類器會有更大的權重。

4)平行計算:

bagging:各個**函式可以並行生成

boosting:各個**函式只能順序生成,因為後乙個模型引數需要前一輪模型的結果。

5)這個很重要面試被問到了

bagging對樣本重取樣,對每一重取樣得到的子樣本集訓練乙個模型,最後取平均。由於子樣本集的相似性以及使用的是同種模型,因此各模型有近似相等的bias和variance(事實上,各模型的分布也近似相同,但不獨立)。由於

,所以bagging後的bias和單個子模型的接近,一般來說不能顯著降低bias。另一方面,若各子模型獨立,則有

,此時可以顯著降低variance。若各子模型完全相同,則

,此時不會降低variance。bagging方法得到的各子模型是有一定相關性的,屬於上面兩個極端狀況的中間態,因此可以一定程度降低variance。為了進一步降低variance,random forest通過隨機選取變數子集做擬合的方式de-correlated了各子模型(樹),使得variance進一步降低。

(用公式可以一目了然:設有i.d.的n個隨機變數,方差記為

,兩兩變數之間的相關性為

,則的方差為

,bagging降低的是第二項,random forest是同時降低兩項。詳見esl p588公式15.1)

boosting從優化角度來看,是用forward-stagewise這種貪心法去最小化損失函式

。例如,常見的adaboost即等價於用這種方法最小化exponential loss:

。所謂forward-stagewise,就是在迭代的第n步,求解新的子模型f(x)及步長a(或者叫組合係數),來最小化

,這裡是前n-1步得到的子模型的和。因此boosting是在sequential地最小化損失函式,其bias自然逐步下降。但由於是採取這種sequential、adaptive的策略,各子模型之間是強相關的,於是子模型之和並不能顯著降低variance。所以說boosting主要還是靠降低bias來提公升**精度。

整合學習之bagging和boosting

整合演算法目標 整合演算法會考慮多個評估器的建模結果,彙總之後得到乙個綜合的結果,以此來獲取比單個模型更好的回歸或分類表現。整合學習 ensemble learning 通過構建並結合多個學習器來完成學習任務。一般結構為 先產生一組 個體學習器 再用某種策略將它們結合起來。但要獲得好的整合,個體學習...

機器學習(五) Bagging與Boosting

bagging bagging breiman,1996 通過訓練許多基本分類器進行投票分類,每種基本分類器 如決策樹,神經網路 通過投票的方式降低偏差增加方差。假設我們的任務是使用訓練資料學習乙個模型 q 這些公式的含義?boosting boosting freund shapire,1996 ...

Bagging和隨機森林

又稱袋裝 bagging 或者自助聚集 boot strap aggregating 是一種根據均勻概率分布從資料集中重複取樣 有放回 的技術。每個自助取樣的樣本集都和原資料集一樣大。在又放回的抽樣中,如果抽樣的個數和原資料集的大小一致,則自助樣本di d i中會有63 63 的原訓練資料,因為每乙...