統計學習方法樹模型

樹模型

（上思維導圖來自知乎：夕小瑤）

決策樹演算法主要包括決策樹的生成與剪枝。

決策樹可以從兩個方面解釋

決策樹學習的本質是從訓練資料集中歸納出一組分類規則，也可以看做是對特徵空間劃分類的條件概率分布。

首先，按照根據統計學習三要素來分析決策樹學習的過程：

假設空間：對特徵空間進行劃分所有可能的決策樹

損失函式：正則化的極大似然函式

優化方法：優化就是要在所有可能的的決策樹中選擇損失最小的樹。在所有可能的決策樹選擇最優決策樹是完全np問題。所以決策樹的學習一般使用啟發式的方法近似求解。這樣得到的決策樹是次最優的。

決策樹啟發式學習方法：遞迴的選擇最優特徵，對特徵空間不斷的劃分，也對應著決策樹的構建。決策樹的生成只考慮區域性最優，決策樹的剪枝考慮全域性最優。決策樹的生成主要有id3，c4.5和cart演算法。主要區別在於最優特徵選擇方法的不同。

1.1 id3-資訊增益

id3演算法使用資訊增益來選擇當前的最優特徵。資訊增益是用來衡量給定特徵a後，隨機變數熵下降的程度。用經驗熵h(d)和給定特徵a的條件經驗熵h(d|a)之差來表示。

g ai

n(d,

a)=h

(d)−

h(d∣

a)=h

(d)−

∑i=1

n∣di

∣∣d∣

h(di

)gain(d,a)=h(d)-h(d|a)\\=h(d)-\sum_^n\frach(d_i)

gain(d

,a)=

h(d)

−h(d

∣a)=

h(d)

−i=1

∑n∣

d∣∣d

i∣

h(di

)h(d)表示熵，用來衡量隨機變數的不確定性。熵越大，不確定性越大。

h (d

)=−∑

k=1k

∣dk∣

∣d∣l

og∣d

k∣∣d

∣h(d)=-\sum_^k\frac\mathop\frac

h(d)=−

k=1∑

k∣d

∣∣dk

∣l

og∣d

∣∣dk

∣

1.2 c4.5-資訊增益比

id3演算法中的使用資訊增益選擇最優特徵存在問題：資訊增益傾向於選擇取值較多的特徵。c4.5演算法使用資訊增益比來解決這一問題，對特徵的取值個數加上懲罰。

資訊增益比等於給定特徵a的資訊增益與樣本集關於特徵a的熵的比值。

g ra

te=g

ain(

d,a)

ha(d

)ha(

d)=−

∑i=1

n∣di

∣∣d∣

log∣

di∣∣

d∣g_=\frac\\h_a(d)=-\sum_^n\frac\mathop\frac

grate

=ha

(d)g

ain(

d,a)

(d)=

−i=1

∑n∣

d∣∣d

i∣

log∣

d∣∣d

i∣

特徵a的取值越多，樣本集關於a的熵就越大。資訊增益比就相當於在資訊增益對特徵取值個數增加了懲罰。

1.3 cart樹

cart（classify and regression tree）是用於分類和回歸的二叉樹。回歸樹使用均方誤差最小化準則，分類樹用基尼指數最小化準則。遞迴的構建決策二叉樹。

1.3.1 回歸樹

回歸樹使用均方誤差。遍歷所有的特徵，以及該特徵的取值作為切分變數和切分點。將劃分後各葉節點的均值作為**值。選擇均方誤差最小的劃分變數和劃分點對特徵空間進行劃分。遞迴進行以上過程，直到達到停止條件。

1.3.2 分類樹

分類樹使用基尼指數。

g in

i(p)

=∑k=

1kpk

(1−p

k)=1

−∑k=

1kpk

2gini(p)=\sum_^kp_k(1-p_k)=1-\sum_^kp_k^2

gini(p

)=k=

1∑k

pk(

1−pk

)=1

−k=1

∑kp

k2基尼指數表示對隨機變數進行兩次又放回的取樣，這兩次拿到的樣本不屬於同一類的概率。與熵一樣，反映了隨機變數的混亂程度。

決策樹生成只考慮區域性最優。通過不斷對特徵空間進行劃分，來更好的擬合訓練資料。這樣做很容易過擬合。決策樹的剪枝考慮全域性最優。通過極小化帶正則（代表整棵樹的複雜度）的樹整體損失對生成的決策樹進行剪枝。

l =∑

t=1t

nth(

dt)+

a∣t∣

l=\sum_^tn_th(d_t)+a|t|

l=t=1∑

tnt

h(d

t)+

a∣t∣

其中t表示葉節點的個數。第一項表示樹的整體損失（整棵樹熵的期望），第二項表示樹的複雜度。a是控制兩者影響的比例。

根據剪枝時機的不同，可分為預剪枝和後剪枝。

樹模型大多用於整合學習中，關於樹整合的演算法參見整合學習部分的介紹。

參考：

[1] 李航，統計學習方法

統計學習方法 樹模型

統計學習方法 1 統計學習方法概論

統計學習方法

統計學習方法

相關推薦

統計學習方法樹模型