隨機森林進行特徵選取

在隨機森林中某個特徵x的重要性的計算方式如下:

首先是對隨機森林的每一顆決策樹,使用對應的oob(袋外資料)資料來進行計算他的袋外的資料誤差,記做error1

這樣每個決策樹都可以得到乙個error1,k顆數就有k個error1.

然後就是要遍歷所有的特徵,來考察該特徵的重要性,考察重要性的方式是,隨機的對袋外的資料oob所有樣本的特徵x加入雜訊干擾,考察(可以理解為隨機得改變樣本在特徵x處的值),再次計算它袋外的資料誤差,記做error2,這樣每棵樹就可以得到乙個error2,k顆樹就可以的得到k個error2.

之所以可以這樣的表示式來作為相應特徵的重要性的度量值是因為:若給某個特徵隨機加入雜訊之後,袋外的準確率大幅度下降,說明這個特徵對於樣本的分類結果影響很大,也就是說他的重要程度比較高.

對於特徵x的重要性=∑

(error2-error1)/ktree

隨機森林，隨機森林中進行特徵重要性

用有抽樣放回的方法 bootstrap 從樣本集中選取n個樣本作為乙個訓練集用抽樣得到的樣本集生成一棵決策樹。在生成的每乙個結點隨機不重複地選擇d個特徵利用這d個特徵分別對樣本集進行劃分，找到最佳的劃分特徵可用基尼係數增益率或者資訊增益判別重複步驟1到步驟2共k次，k即為隨機森林中決策樹...

隨機森林特徵篩選

剛看到一篇介紹特徵篩選的文章，裡面介紹基於模型的特徵排名，附加了乙個隨機森林的python程式，感覺挺好，趕緊mark下來。程式使用了skliearn機器學習庫，資料集為boston房屋資料，源程式如下所示 fromsklearn.cross validationimportcross val s...

隨機森林特徵選擇

隨機森林具有準確率高魯棒性好易於使用等優點，這使得它成為了目前最流行的機器學習演算法之一。隨機森林提供了兩種特徵選擇的方法 mean decrease impurity 和mean decrease accuracy。隨機森林由多個決策樹構成。決策樹中的每乙個節點都是關於某個特徵的條件，為的是將...

隨機森林進行特徵選取

隨機森林，隨機森林中進行特徵重要性

隨機森林特徵篩選

隨機森林特徵選擇

相關推薦