Bagging演算法原理

bagging是並行式整合學習方法的典型代表，它直接基於自助取樣法。給定包含m個樣本的資料集，我們先隨機取出乙個樣本放入取樣中，再把該樣本放回初始資料集，使得下次取樣時該樣本仍有可能被選中。這樣，經過m次隨機取樣操作，我們得到含m個樣本的取樣集，初始訓練集中有的樣本在取樣集裡多次出現，有的則從未出現。初始訓練集中約有63.2%的樣本出現在取樣集中。

照這樣，我們可取樣出t個含m個訓練樣本的取樣集，然後基於每個取樣集訓練出乙個基學習器，再將這些基學習器進行結合。這就是bagging的基本流程。在對**輸出進行結合時，bagging通常對分類任務使用簡單投票法，對回歸任務使用簡單平均法。若分類**時出現兩個收到同樣票數的情形，則最簡單的做法是隨機選擇乙個，也可進一步考察學習器投票的置信度來確定最終勝者。

與標準adaboost只適用於二分類任務不同，bagging能不經修改地用於多分類、回歸等任務。

值得一提的是，自助取樣過程還給bagging帶來了另乙個優點：由於每個基學習器只使用了初始訓練集中約63.2%的樣本，剩下的36.8%的樣本可用作驗證集對泛化效能進行「包外估計」，為此，記錄每個基學習器的訓練樣本。不妨令

則bagging泛化誤差的包外估計為：

事實上，包外樣本還有許多其他用途，例如當基學習器是決策樹時，可使用包外樣本來輔助剪枝，或用於估計決策樹中各節點的後驗概率以輔助對零訓練樣本節點的處理；當學習器是神經網路時，可使用包外樣本來輔助早期停止以減小過擬合風險。

從偏差-方差的角度來看，bagging主要關注降低方差，因此它在不剪枝決策樹、神經網路等容易受樣本擾動的學習器上效果更為明顯。

Bagging演算法原理

Bagging與隨機森林演算法原理小結

Bagging與隨機森林演算法原理小結

整合學習 Bagging與隨機森林演算法原理小結

Bagging演算法原理

Bagging與隨機森林演算法原理小結

Bagging與隨機森林演算法原理小結

整合學習 Bagging與隨機森林演算法原理小結

相關推薦