決策樹演算法模型（一）

優點：可讀性高、分類速度快、非引數型；

缺點：容易過擬合，可能陷入區域性最小值；

準則：損失函式-----正則化的極大似然函式

1、id3演算法（資訊增益）----決策樹的生成：

輸入：訓練資料集d

dd，特徵集a

aa，閾值ε

\varepsilon

ε;輸出：決策樹t

（1）若d中所有例項屬於同一類c

kc_k

ck,則t為單節點數，並將類別c

kc_k

ck作為該結點的類標記，返回t

tt;-----終止條件

（2）若a=⊘

a=\oslash

a=⊘,則t為單結點數，並將d中例項數最大的類c

kc_k

ck作為該結點的類標記，返回t；-----終止條件

（3）否則，計算a

aa中個特徵對d的資訊增益，選擇資訊增益最大的特徵a

ga_g

ag;

（4）如果a

ga_g

ag的資訊增益小於閾值ε

\varepsilon

ε,則置t為單結點樹，並將d中例項數最大的類作為標記；

（5）否則，對a

ga_g

ag的每乙個可能取值a

ia_i

ai，依次ag=

a_g=a_i

ag=ai

將d分割為若干非空子集d

id_i

di，將d

id_i

di中例項數最大的類作為標記，構建子結點，由結點及其子結點構成樹t

tt,構成樹t

tt,返回t；

（6）對第i

ii個子結點，以d

id_i

di為訓練集，以a

−a-\

a−為特徵集，遞迴的呼叫（1）-（5），得到子樹t

it_i

ti，返回t

it_i

ti;

資訊增益演算法

輸入：訓練資料集d和特徵集a

輸出：特徵集a對訓練資料集d的資訊增益g(d

)g(d,a)

g(d,a)

（1）計算資料集d

dd的經驗熵h(d

)h(d)

h(d)：h(d

)=−∑

k=1k

dkdl

ogdk

dh(d)=-\sum_^k\fraclog\frac

h(d)=−

∑k=1

kdd

ogdd

（2）計算特徵集a

aa對資料集d

dd的經驗條件熵h(d

∣a

)h(d|a)

h(d∣a)：h(

d∣a)

=∑i=

1ndi

dh(d

i)=−

∑i=1

ndid

(∑k=

1kdi

kdil

ogdi

kdi)

h(d|a)=\sum_^n\frach(d_i)=-\sum_^n\frac(\sum_^k\frac}log\frac})

h(d∣a)

=∑i=

1nd

h(di

)=−

∑i=1

ndd

∑k=1

kdi

dik

gdi

dik

)（i =1

,2,.

..,n

i=1,2,...,n

i=1,2,

...,

n表示特徵a

aa取值個數，d

id_i

di表示特徵a

aa取i

ii時資料集個數）；

（3）計算資訊增益

g (d

∣a)=

h(d)

−h(d

∣a

)g(d|a)=h(d)-h(d|a)

g(d∣a)

=h(d

)−h(

d∣a)

決策樹模型

決策樹採用樹結構來進行決策的，可以認為是if then規則集合，也可以認為是對特徵空間劃分，每個子空間對應乙個輸出。其優點簡單，快速，可解釋性強。決策樹通常包含三部分特徵選擇，決策樹生成，決策樹剪枝。資訊增益，資訊增益比，基尼指數是常用的特徵選擇準則資訊熵表示變數的不確定程度，資訊熵越大不確定...

決策樹模型

前言決策樹生成模型三要素一般而言，一顆完全生長的決策樹包含特徵選擇決策樹構建剪枝三個過程。決策樹是一種啟發式貪心演算法，每次選取的分割資料的特徵是當前的最佳選擇，並不關心是否達到最優。一特徵選擇 1.1 熵樣本集合純度不確定性穩定性的指標熵越大，樣本的不確定性就越大在決策...

決策樹模型

決策樹可以簡單的理解為根據特徵的取值而最終分成不同的類，也可以理解為簡單的if then的規則集合樹嘛那麼怎麼樣選擇節點是乙個很有技術的問題。為什麼呢，因為如果你的中間節點擊的不錯是不是就能夠很容易的將決策樹的各個節點很容易的分清楚了說白了，你選的樹分叉的地方越有區分度分類越多越好你乙個特徵...

決策樹演算法模型（一）

決策樹模型

決策樹模型

決策樹模型

相關推薦