資訊增益，資訊增益率，Gini

資訊增益：

首先，計算總系統的熵，

然後，當某特徵固定時，會將系統分成幾個（此特徵的可能值數目）子系統，分別計算每個子系統的熵，方法同上；

而後，將幾個子系統的熵加起來，便是「當不包含此特徵」時系統的熵；

最後，以上兩個「包含」和「不包含」此特徵情況下系統的熵的差值便是此特徵的資訊增益。

gini 係數：

某個節點的gini不純度計算：

比如，某節點a樣本分屬兩類，c1:2, c2:4，則gini(a) = 1 - (2/6)^2 - (4/6) ^2 = 0.444，節點b，c1:6, c2:0, 則 gini(b) = 1 - (6/6)^2 - (0/6)^2 = 0。顯然，前者的不純度更高，所以某節點的gini係數越大則其不純度越高。

而當評判**優劣時，需要用到兩個子節點的gini係數來計算。

比如某根節點有12個樣本（6:6），按照某特徵的某閾值**成兩個子節點a（2:4）和b（0:6），則此次的split的gini係數為：6/12*0.444 + 6/12*0 = 0.222. 那這個分類效果如何呢？比如按照另外乙個特徵的某閾值來分類的話，可以分成c（6:6）和d（0:0），則此次的split的gini係數為：12/12*0.5 + 0/12*0 = 0.5. 而顯然前者的分類效果好，可見，gini_split值越小越好。

對於熵來說，越**明越純，而gini同樣，而這都是針對某個節點，如果某節點越純則我們越能確定它屬於哪一類，則越是理想結果。所以，對於資訊增益來說，如果父節點的熵已定，則希望子節點的熵盡量小，這樣：1.資訊增益得到最大，2.分出來的子節點的類標越明確（越純）。而對於gini係數來說，同樣是盡量讓分出來的子節點擁有盡量低的不純度（越純則類標越明確）。——子節點的樣本分佈越不均勻，gini係數和熵越小，分類效果越好。

【所以在特徵選擇的時候常常用資訊增益，如果ig（資訊增益大）的話那麼這個特徵對於分類來說很關鍵~~ 決策樹就是這樣來找特徵的！】

**：

資訊增益，資訊增益率，Gini

熵資訊增益資訊增益率

資訊增益與資訊增益率詳解

最大資訊熵增益資訊熵與資訊增益

資訊增益，資訊增益率，Gini

熵 資訊增益 資訊增益率

資訊增益與資訊增益率詳解

最大資訊熵增益 資訊熵與資訊增益

相關推薦

熵資訊增益資訊增益率

最大資訊熵增益資訊熵與資訊增益