十六 機器學習之路 決策樹演算法(2)

2021-08-11 16:49:43 字數 1252 閱讀 9110

實際上資訊增益準則對可取數值較多的屬性有所偏好。資訊增益的公式如下: ga

in(d

,a)=

ent(

d)−∑

v1|d

v||d

|⋅en

t(dv

)

如果可取數值越多,則上式的−∑

v1|d

v||d

|⋅en

t(dv

) 越大,最終導致資訊增益gain(d,a)越大。為了減少這種特點可能帶來的不良影響,c4.5決策樹演算法不直接利用資訊增益,而是採用」增益率」(gain ratio)來選擇最優劃分屬性。增益率定義為: ga

inra

tio(

d,a)

=gai

n(d,

a)iv

(a)

其中 iv(

a)=−

∑v1|

dv||

d|lo

g2|d

v||d

|

上式iv(a)稱為屬性a的」固有值」(intrinsic value)[quinlan,1993]。同樣的道理,屬性a的可能取值數越多(即v越大),iv(a)的值通常會越大。

和id3演算法類似,增益率準則同樣有個問題,即增益率準則對可取值數目較少的屬性有所偏好,因此在c4.5演算法中,並不是直接選擇增益率大的屬性進行劃分,而是使用了乙個啟發式:先從候選劃分屬性中找出資訊增益高於平均水平的屬性,再從中選擇增益率最高的屬性。

cart(classification and regression tree)決策樹使用」基尼指數「(gini index)來選擇劃分屬性。資料集d的純度可用基尼值來度量: gi

ni(d

)=∑m

k=1∑

k′≠k

pkpk

′=1−

∑mv=

1p2k

直觀來說,gini(d)反映了從資料集d中隨機抽取兩個樣本,其類別標記不一致的概率。因此,gini(d)越小,則資料集d的純度越高。

屬性a的基尼指數定義為:gi

niin

dex(

d,a)

=∑vv

=1|d

v||d

|gin

i(dv

)

因此,在決策樹劃分屬性選擇的時候,選擇基尼指數最小的屬性作為最優劃分屬性。

so much for today!@_@

機器學習演算法2 決策樹

本文總結於 machine learning in action 一書 一.決策樹的一般流程 1.收集資料 可以使用任何方法 2.準備資料 數構造演算法只適應於標稱型資料,因此數值型資料必須離散。3.分析資料 可以使用任何方法,構造樹完成之後,我們應該檢查圖形是否符合預期。4.訓練資料 構造樹的資料...

機器學習(2) 決策樹

前言 決策樹是一種機器學習的方法。決策樹是一種樹形結構,其中每個內部節點表示乙個屬性上的判斷,每個分支代表乙個判斷結果的輸出,最後每個葉節點代表一種分類結果。決策樹需要監管學習。監管學習就是給出一堆樣本,每個樣本都有一組屬性和乙個分類結果,也就是分類結果已知,那麼通過學習這些樣本得到的決策樹,這個決...

機器學習 2 決策樹

用年齡 收入 是否學生 信用度高低來判斷是否購買電腦為例子 資訊 如果待分類的事物可能劃分在多個類之中,則符號xi的資訊定義為 上例中,買電腦的概率為9 14,那麼yes的資訊為 同理,no的資訊為 資訊熵 即資訊期望值。公式如下 即 在決策樹id3演算法中,選擇使用資訊獲取量 informatio...