整合學習2 bagging

參考：

清華大學資料探勘課程

1.bagging——bootstrap aggregation

bagging是有放回的取出樣本中的部分樣本，進行多次這種操作得到多組樣本，用這些樣本訓練多個分類器，然後在**的時候，用這些分類器進行**，用這些**值進行投票。比如7個**為1，3個**為0，則總的**值就為1。

2.典型演算法

隨機森林——random forest

隨機森林就是將多個（500 <= m <= 5000）決策樹集合起來得到乙個森林進行決策，根據上面的定義，就是用不同的決策樹進行**，然後用這些**進行投票。

假設有n個樣本，有放回的取n個樣本，這種隨機抽取的方法最終

當然對於這m個決策樹，在測試的時候可以用到的測試集的資料是要在訓練中沒有用的高的資料（訓練集不一樣，測試集也不一樣）。

如果每個樣本的特徵維度為k，指定乙個常數k<3.演算法步驟

優點：

1.不需要人為的去講資料分成測試集驗證集

2.不需要擔心過擬合問題，在隨機森林中有多個決策樹，即使有一部分樹過擬合了，但是在將所有分類器combine之後，過你華將被大大削弱，不用剪枝

3.不需要人為的特徵選擇，只需要設定數目。

4.可以進行特徵選擇，計算每個特徵的重要性。檢視每個特徵在不同決策樹中起到的作用，也就是基尼係數或增益率等評價值的大小，然後在森林中對所有樹中的該特徵的值做一下平均。就可以得到不同特徵的排名，這樣就知道哪些特徵比較重要，哪些特徵不重要。

分類錯誤的兩類因素：

1.樹之間的相關性，相關性越大，錯誤率越大

2.樹的分類能力越強，錯誤率越低

特徵選擇個數↑--相關性和分類能力↑