《統計機器學習》決策樹學習筆記

利用資訊增益構建決策樹例項

資訊增益比

id3演算法

c4.5生成演算法

決策樹的剪枝

cart演算法

決策樹是基本的分類和回歸方法。但是主要用於分類。在分類問題中，表示基於特徵對樣本進行分類的過程，也可以認為是在特徵空間與類空間上的條件概率分布(類空間就是分類的結果，比如有二分類：是否問題)。之所以說是條件概率分布，是因為在給定某個特徵a條件下樣本的分類。

具有可讀性，分類速度快

分類決策樹是一種對樣本進行分類的樹形結構。遞迴地選擇最優特徵

決策樹地構建，可能對訓練資料集有很好的分類能力，但是對未知的測試資料卻未必，可能發生過擬合現象。需要對其進行修剪，使之具有很好的泛化能力，具體講就是去掉過於細分的葉子結點，使其回退到父結點，甚至更好的結點，然後將回退到的點更改為新的葉子結點。

某個不確定性的可能取值，比如拋硬幣可以取[正，反]

表示隨機變數不確定性的度量,就是對[正，反]的一種度量。在上面的圖中，

隨機變數x是乙個有限個數的離散隨機變數，概率分布為 p(

x=xi

)=pi

,i=1

,2,3

,...

n p(x

=xi)

=pi,

i=1,

2,3,

...n

h(p)=

−∑1n

pilo

gpi h(p

)=−∑

1npi

logp

i墒越大，隨機變數的不確定性就越大。不確定性大，就是x的取值很多樣化，而不是幾乎只為某個值，就很混亂的意思

利用特徵x對樣本劃分，使得類y的不確定性的減小程度

計算h(d)h(

d)=−

∑k=1

k|ck

||d|

log2

|ck|

|d| h(d

)=−∑

k=1k

|ck|

|d|l

og2|

ck||

d|計算條件墒h(d|a)

對應定義h(

y|x)

=∑ni

=1pi

h(y|

x=xi

) h(y

|x)=

∑i=1

npih

(y|x

=xi)

可以知道 h(

d|a)

=∑ni

=1|d

i||d

|h(d

i)=−

∑ni=

1|di

||d|

∑kk=

1|ci

k||d

i|lo

g2|d

ik||

di| h(d

|a)=

∑i=1

n|di

||d|

h(di

)=−∑

i=1n

|di|

|d|∑

k=1k

|cik

||di

|log

2|di

k||d

i|計算資訊增益

在特徵有多種取值的時候，資訊增益都會比較大，但這種切分有時可能會沒有意義，比如根據日期，或者根據id切分 gr

(d,a

)=g(

d,a)

h(d)

g r(

d,a)

=g(d

,a)h

(d)比如根據id劃分，每個id取值就會有乙個最純的結果，導致g(d|a)很大，直接從h(d)減為0，即g(d|a)=h(d)，但是在資訊增比中確為1

id3演算法核心是在決策樹各個結點上應用資訊增益進行選擇特徵，遞迴地構建決策樹。

具體為：從根結點開始，對結點計算所有可能的特徵的資訊增益，選擇資訊增益最大的特徵作為該結點的特徵，由該特徵的不同取值構建子結點；再對子結點遞迴地呼叫上述方法，構建決策樹；直到所有的特徵的資訊增益均很小或者沒有特徵可以選擇為止。id3只有樹的生成，容易過擬合

決策樹的損失函式cα

(t)=

∑t=1

|t|n

tht(

t)+α

|t| cα(

t)=∑

t=1|

t|nt

ht(t

)+α|

t|其中，訓練集d的子集ht

(t) ht(

t)墒為 ht(

t)=−

∑k=1

kntk

ntlo

gntk

nth t(

t)=−

∑k=1

kntk

ntlo

gntk

nt|t|是模型的複雜度，α α

如果大，就會選擇較小的|t

| |t

|,因此模型就會簡單一些

《統計機器學習》決策樹學習筆記

機器學習筆記決策樹學習

《機器學習》學習筆記之決策樹

機器學習之決策樹學習筆記

《統計機器學習》 決策樹學習筆記

機器學習筆記 決策樹學習

《機器學習》學習筆記之決策樹

機器學習之決策樹學習筆記

相關推薦

《統計機器學習》決策樹學習筆記

機器學習筆記決策樹學習