Bagging和隨機森林

又稱袋裝（bagging）或者自助聚集(boot strap aggregating)

是一種根據均勻概率分布從資料集中重複取樣（有放回）的技術。每個自助取樣的樣本集都和原資料集一樣大。

在又放回的抽樣中，如果抽樣的個數和原資料集的大小一致，則自助樣本di

i中會有63%63%

的原訓練資料，因為每乙個樣本抽到di

i的概率為1−

(1−1

n)n 1−(

1−1n

)n,如果n n

足夠大，則這個概率收斂於1−

的時間複雜度大致是t(

o(m)

+o(s

))t (o

(m)+

o(s)

)，考慮到取樣與投票的平均時間複雜度o(

s)o (s

)非常小,而且

t t

通常是乙個不太大的常數，所以ba

ggin

g' role="presentation" style="position: relative;">bag

ging

bagg

ing整合和直接使用基學習演算法訓練的乙個學習器的複雜度同階。這說明ba

ggin

g bag

ging

是乙個很高效的整合學習演算法。

隨機森林（random forest簡稱rf），是bagging的乙個擴充套件變體。rf在以決策樹為基學習器構建在ba

ggin

g bag

ging

整合的基礎之上的。進一步在決策樹的訓練過程中引入了隨機屬性選擇。

具體來說，傳統的決策樹在選擇劃分屬性的時候是在當前結點屬性集合（假定有

d d

個屬性）中選擇乙個最優屬性。而在rf

' role="presentation" style="position: relative;">rfr

f中，對基決策樹的每個結點，先從該結點的屬性中隨機選擇乙個包含

k k

個屬性的子集，然後再從這個子集中選擇乙個最優屬性用於劃分。這裡的引數

k' role="presentation" style="position: relative;">k

k控制了隨機性的引入程度：若令k=

d k=d

則基決策樹的構建和傳統決策樹相同。若令k=

1 k=1

則相當於隨機選擇一種屬性用於劃分。一般情況下推薦k=

log2

d k

=log2⁡

Bagging 隨機森林

bagging是n個相互無信賴的弱學習器，通過一定的策略，得到乙個強學習器。bagging乙個主要的特點是隨機取樣，bagging是有放回的取樣。對於乙個有m個樣本的資料集，每次採集乙個樣本，被採的概率是 frac 不被採的概率是 1 frac 如果m次取樣都沒有被採中的概率是 1 frac m 當...

Bagging與隨機森林

給定包含 m 個樣本的資料集 d，我們對它進行取樣產生資料集 d 每次隨機從 d 中挑選乙個樣本，將其拷貝放入 d 然後再將該樣本放回初始資料集 d 中，使得該樣本在下次取樣時仍有可能被採到這個過程重複執行 m次後，我們就得到了包含 m 個樣本的資料集 d 這就是自助取樣的結果。顯然，d 中有一部...

Bagging與隨機森林

前今天整理了決策樹的原理實現，順手再把隨機森林的原理整理整理。bagging是並行式整合學習方法最著名的代表，其原理是給定包含m個樣本的資料集，我們先隨機取出乙個樣本放入取樣集中，再把該樣本放回初始資料集有放回這樣經過m此隨機取樣操作，我們得到含有m個樣本的取樣集。照這樣，我們可取樣出t個含m個...

Bagging和隨機森林

Bagging 隨機森林

Bagging與隨機森林

Bagging與隨機森林

相關推薦