隨機森林之Bagging法

2022-03-12 03:17:37 字數 757 閱讀 7113

摘要:在隨機森林介紹

中提到了bagging方法,這裡就具體的學習下bagging方法。

bagging方法是乙個統計重取樣的技術,它的基礎是bootstrap。基本思想是:利用bootstrap方法重取樣來生成多個版本的**分類器,然後把這些分類器進行組合。通常情況下組合的分類器給出的結果比單一分類器的好,因為綜合了各個分類器的特點。之所以用可重複的隨機取樣技術bootstrap,是因為進行重複的隨機取樣所獲得的樣本可以得到沒有或者含有較少的雜訊資料。

在訓練集上取樣bootstrap的方法進行取樣,平均1/3的樣本不會出現在取樣的樣本集合中,這就意味著訓練集中的雜訊點可能不會出現在bootstrap所採集的樣本集合中,所以與在原始樣本集合上構建分類器相比,bootstrap方法可以更容易的獲得好的分類器。

在leo breiman的** :bagging predictors

中他研究了不穩定性問題。他指出神經網路,分類和回歸樹,線性回歸等方法的子集選擇都不是穩定的。k-nearest相鄰方法是穩定的。在**中表明,bagging方法可以正常的處理不穩定情況。實踐和理論證明bagging方法可以將乙個好的不穩定的過程推向最優化方向發展。

bagging演算法流程如下:

1:對於給定的訓練樣本集合,通過n次的隨機可重複的取樣,從原始的樣本集合中構建乙個bootstrap樣本集合。

2:對於每乙個bootstrap樣本集合構建一顆決策樹。

4:讓每一棵決策樹對輸入量x進行投票

5:計算所有的投票數目,並以投票最多的乙個分類標籤作為x的型別。

Bagging 隨機森林

bagging是n個相互無信賴的弱學習器,通過一定的策略,得到乙個強學習器。bagging乙個主要的特點是隨機取樣,bagging是有放回的取樣。對於乙個有m個樣本的資料集,每次採集乙個樣本,被採的概率是 frac 不被採的概率是 1 frac 如果m次取樣都沒有被採中的概率是 1 frac m 當...

Bagging與隨機森林

給定包含 m 個樣本的資料集 d,我們對它進行取樣產生資料集 d 每次隨機從 d 中挑選乙個樣本,將其拷貝放入 d 然後再將該樣本放回初始資料集 d 中,使得該樣本在下次取樣時仍有可能被採到 這個過程重複執行 m次後,我們就得到了包含 m 個樣本的資料集 d 這就是自助取樣的結果。顯然,d 中有一部...

Bagging和隨機森林

又稱袋裝 bagging 或者自助聚集 boot strap aggregating 是一種根據均勻概率分布從資料集中重複取樣 有放回 的技術。每個自助取樣的樣本集都和原資料集一樣大。在又放回的抽樣中,如果抽樣的個數和原資料集的大小一致,則自助樣本di d i中會有63 63 的原訓練資料,因為每乙...