理解隨機森林

隨機森林利用隨機的方式將許多決策樹組合成乙個森林，每個決策樹在分類的時候投票決定測試樣本的最終類別。下面我們再詳細說一下隨機森林是如何構建的。

隨機森林主要包括4個部分：隨機選擇樣本;隨機選擇特徵;構建決策樹;隨機森林投票分類。

1.隨機選擇樣本

給定乙個訓練樣本集，數量為n，我們使用有放回取樣到n個樣本，構成乙個新的訓練集。注意這裡是有放回的取樣，所以會取樣到重複的樣本。詳細來說，就是取樣n次，每次取樣乙個，放回，繼續取樣。即得到了n個樣本。

然後我們把這個樣本集作為訓練集，進入下面的一步。

2. 隨機選擇特徵

在構建決策樹的時候，我們前面已經講過如何在乙個節點上，計算所有特徵的information gain(id3) 或者 gain ratio(c4.5)，然後選擇乙個最大增益的特徵作為劃分下乙個子節點的走向。

但是，在隨機森林中，我們不計算所有特徵的增益，而是從總量為m的特徵向量中，隨機選擇m個特徵，其中m可以等於sqrt(m)，然後計算m個特徵的增益，選擇最優特徵(屬性)。注意，這裡的隨機選擇特徵是無放回的選擇!

所以，隨機森林中包含兩個隨機的過程：隨機選擇樣本，隨機選擇特徵。

3. 構建決策樹

有了上面隨機產生的樣本集，我們就可以使用一般決策樹的構建方法，得到一棵分類(或者**)的決策樹。需要注意的是，在計算節點最優分類特徵的時候，我們要使用上面的隨機選擇特徵方法。而選擇特徵的標準可以是我們常見的information gain(id3) 或者 gain ratio(c4.5)。

4. 隨機森林投票分類

通過上面的三步走，我們可以得到一棵決策樹，我們可以重複這樣的過程h次，就得到了h棵決策樹。然後來了乙個測試樣本，我們就可以用每一棵決策樹都對它分類一遍，得到了h個分類結果。這時，我們可以使用簡單的投票機制，或者該測試樣本的最終分類結果。

5. 優缺點分析

優點：它能夠處理很高維度(feature很多)的資料，並且不用做特徵選擇;

由於隨機選擇樣本導致的每次學習決策樹使用不同訓練集，所以可以一定程度上避免過擬合;

缺點：隨機森林已經被證明在某些噪音較大的分類或回歸問題上會過擬合;對於有不同級別的屬性的資料，級別劃分較多的屬性會對隨機森林產生更大的影響，所以隨機森林在這種資料上產出的屬性權值是不可信的。