bagging與隨機森林（python實現）

採用資料隨機重抽樣的分類器構建方法，從訓練集進行子抽樣組成每個基學習器的子訓練集，結合所有基學習器的**結果進行最終的**。如下圖所示：

關於「隨機取樣」：

隨機取樣(bootsrap)就是從我們的訓練集裡面採集固定個數的樣本，但是每採集乙個樣本後，都將樣本放回。也就是說，之前採集到的樣本在放回後有可能繼續被採集到。對於我們的bagging演算法，一般會隨機採集和訓練集樣本數m一樣個數的樣本。這樣得到的取樣集和訓練集樣本的個數相同，但是樣本內容不同。如果我們對有m個樣本訓練集做t次的隨機取樣，，則由於隨機性，t個取樣集各不相同。其中有1/e（計算很簡單）的資料是從未取樣到的，可以用來作為測試集。

gbdt的子取樣是無放回取樣，bagging是有放回取樣。

為什麼說bagging是減少variance，而boosting是減少bias?

隨機森林的改進：

首先，rf使用了cart決策樹作為弱學習器，這讓我們想到了梯度提公升樹gbdt。第二，在使用決策樹的基礎上，rf對決策樹的建立做了改進，對於普通的決策樹，我們會在節點上所有的n個樣本特徵中選擇乙個最優的特徵來做決策樹的左右子樹劃分，但是rf通過隨機選擇節點上的一部分樣本特徵，這個數字小於n，假設為nsub，然後在這些隨機選擇的nsub個樣本特徵中，選擇乙個最優的特徵來做決策樹的左右子樹劃分。這樣進一步增強了模型的泛化能力。

隨機森林的優缺點：

rf的主要優點有：

1）訓練可以高度並行化，對於大資料時代的大樣本訓練速度有優勢。這是的最主要的優點。

2）由於可以隨機選擇決策樹節點劃分特徵，這樣在樣本特徵維度很高的時候，仍然能高效的訓練模型。

3）在訓練後，可以給出各個特徵對於輸出的重要性

4）由於採用了隨機取樣，訓練出的模型的方差小，泛化能力強。

5）相對於boosting系列的adaboost和gbdt， rf實現比較簡單。

6）對部分特徵缺失不敏感。

rf的主要缺點有：

1）在某些噪音比較大的樣本集上，rf模型容易陷入過擬合。

2) 取值劃分比較多的特徵容易對rf的決策產生更大的影響，從而影響擬合的模型的效果。

bagging與隨機森林（python實現）

Bagging與隨機森林

Bagging與隨機森林

Bagging 隨機森林

bagging與隨機森林（python實現）

Bagging與隨機森林

Bagging與隨機森林

Bagging 隨機森林

相關推薦