用隨機森林做特徵選擇

關於隨機森林的介紹，可見本部落格中

首先提出兩個指標，特徵重要性和分類精確度。

一.特徵重要性

對於隨機森林中的一顆決策樹，其訓練資料集是使用bagging方法得到的，即套袋法，還有大約1/3的袋外資料我們可以用它進行特徵重要性的度量，假設針對某個特徵x，我們利用套袋法建立了一顆決策樹t，然後用t對袋外資料toob進行分類檢測，得到其正確分類的個數xt，然後對袋外資料的特徵x進行「隨機擾亂」，對特徵x的取值賦予隨機取的新數值，這時再用t對袋外資料toob'進行分類檢測，得到正確分類數xt'，這時對於t來說，特徵x的重要性d=|xt' - xt|，我們對隨機森林中共n顆決策樹做相同操作，可以得到n個特徵x的重要性，取其均值作為x的重要性度量，即d(x) = (d1+d2+......+dn)/n,其中di = |xt'i - xti|(i=1,2,3,....,n)。

總結下來，判斷乙個屬性重要不重要，還是判斷其值的改變對結果的影響程度。

二.分類精確度

準確度度量方法有很多，可以根據精度要求進行調整，這裡可以使用正確的分類數/總的測試資料數

下面就可以開始使用隨機森林進行特徵選擇

①.將原始資料集隨機劃分為10等份，設其有m個特徵，用其中的9份做訓練資料集訓練出乙個隨機森林r1，剩下的乙份作為測試資料集，這樣我們一共能得到10個隨機森林r1，r2，r3....,r10，

②.對於每個隨機森林ri，我們採用後向序列選擇演算法，對m個特徵進行重要性由大到小的排序，剔除最小的乙個特徵，並記錄下ri的分類精度，

③.對步驟②如此進行m次迭代，選取有最高分類精度的ri作為第i顆隨機森林的

分類精度，其特徵集作為第i個隨機森林的特徵集

④.對步驟②③進行10次迭代，最終選取有最高分類精度的隨機森林作為最終結果，其特徵集作為我們特徵選擇的結果

之所要進行這麼多次迭代，一定程度上能避免隨機性帶來的干擾。

用隨機森林做特徵選擇

隨機森林特徵選擇

隨機森林之特徵選擇

隨機森林特徵篩選

用隨機森林做特徵選擇

隨機森林特徵選擇

隨機森林之特徵選擇

隨機森林特徵篩選

相關推薦