隨機森林之Bagging法

摘要：在隨機森林介紹

中提到了bagging方法,這裡就具體的學習下bagging方法。

bagging方法是乙個統計重取樣的技術,它的基礎是bootstrap。基本思想是：利用bootstrap方法重取樣來生成多個版本的**分類器,然後把這些分類器進行組合。通常情況下組合的分類器給出的結果比單一分類器的好,因為綜合了各個分類器的特點。之所以用可重複的隨機取樣技術bootstrap,是因為進行重複的隨機取樣所獲得的樣本可以得到沒有或者含有較少的雜訊資料。

在訓練集上取樣bootstrap的方法進行取樣，平均1/3的樣本不會出現在取樣的樣本集合中,這就意味著訓練集中的雜訊點可能不會出現在bootstrap所採集的樣本集合中,所以與在原始樣本集合上構建分類器相比,bootstrap方法可以更容易的獲得好的分類器。

在leo breiman的** ：bagging predictors

中他研究了不穩定性問題。他指出神經網路,分類和回歸樹,線性回歸等方法的子集選擇都不是穩定的。k-nearest相鄰方法是穩定的。在**中表明,bagging方法可以正常的處理不穩定情況。實踐和理論證明bagging方法可以將乙個好的不穩定的過程推向最優化方向發展。

bagging演算法流程如下：

1：對於給定的訓練樣本集合,通過n次的隨機可重複的取樣,從原始的樣本集合中構建乙個bootstrap樣本集合。

2：對於每乙個bootstrap樣本集合構建一顆決策樹。

4：讓每一棵決策樹對輸入量x進行投票

5：計算所有的投票數目，並以投票最多的乙個分類標籤作為x的型別。

隨機森林之Bagging法

Bagging 隨機森林

Bagging與隨機森林

Bagging和隨機森林

隨機森林之Bagging法

Bagging 隨機森林

Bagging與隨機森林

Bagging和隨機森林

相關推薦