決策樹特徵選擇

決策樹的特徵選擇標準有兩種：資訊增益，資訊增益比

0.熵指不穩定程度。熵越大，不穩定程度越高，則越容易**。決策樹中也指某結點內含資訊量較多，分類能力較差.

計算公式：

其中，pi為隨機變數x在樣本空間的分布，即第i個型別出現的概率。∑為i到n求和。n為特徵取值種類數量.

ps：為何使用這樣的乙個函式？xlogx的函式影象：

從影象中可以看出，在pi取0.5附近時函式取到極大值，表明各個子樣本空間數量相當，此時熵最大，更容易**.另外，特徵值n越大，熵越高.

條件熵條件熵指的是在隨機變數x確定的情況下，隨機變數y的不確定性，表示為h(y|x)

其中，pi=p(x=x

i).基於x求y的熵，再在x的所有樣本空間求數學期望(均值).

1.資訊增益

定義g(d,a)為資料集d在特徵a上的資訊增益.

定義為集合d的熵與特徵a給定下的條件熵的差.

理解為熵在給定特徵的限制條件後，熵降低值.資訊增益越大，即熵降低程度大，表明在給定條件後（增加樹的決策分支），熵變得更小了，此時，增加此結點分支後，此結點下的樣本更純淨，也就是分類功能更強。

2.資訊增益比

相對於資訊增益是做差值，增益比是做比值。

id3使用資訊增益最大的標準選擇分支結點.

c4.5使用資訊增益比最大來選擇分支結點.

決策樹之特徵選擇

一般而言，隨著劃分過程不斷進行，我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別，即結點的純度 purity 越來越高。假設當前樣本集合 d 中第 k 類樣本所佔的比例為 p k k 1,2,mathcal y 離散屬性 a 有 v 個可能的取值若使用 a 來對樣本集 d 進行劃分，則會產...

使用決策樹進行特徵選擇

使用決策樹進行特徵選擇決策樹也是常用的特徵選取方法。使用決策樹集合如隨機森林等也可以計算每個特徵的相對重要性。這些重要性能夠輔助進行特徵選擇。該方法主要使用資訊增益率來進行特徵選擇。from sklearn import datasets from sklearn import metrics...

決策樹選擇

資訊增益偏向取值較多的特徵資訊增益比偏向取值較少的特徵基尼被選中的概率乘以被分錯的概率資訊增益準則對那些屬性的取值比較多的屬性有所偏好，也就是說，採用資訊增益作為判定方法，會傾向於去選擇屬性取值比較多的屬性。那麼，選擇取值多的屬性為什麼就不好了呢？舉個比較極端的例子，如果將身份證號作為乙...

決策樹 特徵選擇

決策樹之特徵選擇

使用決策樹進行特徵選擇

決策樹選擇

相關推薦

決策樹特徵選擇