《統計機器學習》 決策樹學習筆記

2021-08-17 21:36:13 字數 2664 閱讀 1094

利用資訊增益構建決策樹例項

資訊增益比

id3演算法

c4.5生成演算法

決策樹的剪枝

cart演算法

決策樹是基本的分類和回歸方法。但是主要用於分類。在分類問題中,表示基於特徵對樣本進行分類的過程,也可以認為是在特徵空間與類空間上的條件概率分布(類空間就是分類的結果,比如有二分類:是否問題)。之所以說是條件概率分布,是因為在給定某個特徵a條件下樣本的分類。

具有可讀性,分類速度快

分類決策樹是一種對樣本進行分類的樹形結構。遞迴地選擇最優特徵

決策樹地構建,可能對訓練資料集有很好的分類能力,但是對未知的測試資料卻未必,可能發生過擬合現象。需要對其進行修剪,使之具有很好的泛化能力,具體講就是去掉過於細分的葉子結點,使其回退到父結點,甚至更好的結點,然後將回退到的點更改為新的葉子結點。

某個不確定性的可能取值,比如拋硬幣可以取[正,反]

表示隨機變數不確定性的度量,就是對[正,反]的一種度量。在上面的圖中,

隨機變數x是乙個有限個數的離散隨機變數,概率分布為 p(

x=xi

)=pi

,i=1

,2,3

,...

n p(x

=xi)

=pi,

i=1,

2,3,

...n

h(p)=

−∑1n

pilo

gpi h(p

)=−∑

1npi

logp

i墒越大,隨機變數的不確定性就越大。不確定性大,就是x的取值很多樣化,而不是幾乎只為某個值,就很混亂的意思

利用特徵x對樣本劃分,使得類y的不確定性的減小程度

計算h(d)h(

d)=−

∑k=1

k|ck

||d|

log2

|ck|

|d| h(d

)=−∑

k=1k

|ck|

|d|l

og2|

ck||

d|計算條件墒h(d|a)

對應定義h(

y|x)

=∑ni

=1pi

h(y|

x=xi

) h(y

|x)=

∑i=1

npih

(y|x

=xi)

可以知道 h(

d|a)

=∑ni

=1|d

i||d

|h(d

i)=−

∑ni=

1|di

||d|

∑kk=

1|ci

k||d

i|lo

g2|d

ik||

di| h(d

|a)=

∑i=1

n|di

||d|

h(di

)=−∑

i=1n

|di|

|d|∑

k=1k

|cik

||di

|log

2|di

k||d

i|計算資訊增益

在特徵有多種取值的時候,資訊增益都會比較大,但這種切分有時可能會沒有意義,比如根據日期,或者根據id切分 gr

(d,a

)=g(

d,a)

h(d)

g r(

d,a)

=g(d

,a)h

(d)比如根據id劃分,每個id取值就會有乙個最純的結果,導致g(d|a)很大,直接從h(d)減為0,即g(d|a)=h(d),但是在資訊增比中確為1

id3演算法核心是在決策樹各個結點上應用資訊增益進行選擇特徵,遞迴地構建決策樹。

具體為:從根結點開始,對結點計算所有可能的特徵的資訊增益,選擇資訊增益最大的特徵作為該結點的特徵,由該特徵的不同取值構建子結點;再對子結點遞迴地呼叫上述方法,構建決策樹;直到所有的特徵的資訊增益均很小或者沒有特徵可以選擇為止。id3只有樹的生成,容易過擬合

決策樹的損失函式cα

(t)=

∑t=1

|t|n

tht(

t)+α

|t| cα(

t)=∑

t=1|

t|nt

ht(t

)+α|

t|其中,訓練集d的子集ht

(t) ht(

t)墒為 ht(

t)=−

∑k=1

kntk

ntlo

gntk

nth t(

t)=−

∑k=1

kntk

ntlo

gntk

nt|t|是模型的複雜度,α α

如果大,就會選擇較小的|t

| |t

|,因此模型就會簡單一些

機器學習筆記 決策樹學習

決策樹學習是一種逼近離散值目標函式的方法,在這樣的方法中學習到的函式被表示為一棵決策樹。表示法 把例項從根節點排列到某個葉子節點來分類例項,葉子節點即為例項所屬的分類。樹上的每個節點指定了對例項的某個屬性 attribute 的測試,而且該節點的每個字尾分支相應於該屬性的乙個可能值。分類例項的方法是...

《機器學習》學習筆記之決策樹

決策樹,顧名思義,以樹的結構來進行 它的基本概念在章節開頭有詳細的介紹。構建樹的遞迴演算法中,有三個情形會導致遞迴返回。其中第二個 當前屬性 特徵 集為空,或是所有樣本在所有屬性上取值相同,無法劃分。其意思是 已經沒有特徵拿來作進一步劃分生成子節點,或者此結點中的樣本標記不一致,但是他們在剩餘待劃分...

機器學習之決策樹學習筆記

機器學習之決策樹學習筆記 什麼是決策樹?決策樹是根據資料特徵 屬性 進行不斷分類最終得到結論的一種機器學習方法。point1 資料特徵的選擇的依據是屬性的資訊增益 部分?point2 不斷分類表明決策樹是乙個遞迴過程 一 資訊熵與資訊增益 決策樹學習的關鍵是如何選擇最優劃分屬性,隨著劃分過程不斷進行...