機器學習之決策樹

資訊增益比是什麼？

特徵的選擇

決策樹的構建原理？

決策樹的減枝

離散化處理

不完整資料處理

樹形結構為什麼不需要歸一化?

永遠要記得，成功的決心遠勝於任何東西。

在對訓練資料集分類時，究竟選擇哪個特徵更好？這就要求確定選擇特徵的準則。直觀上如果乙個特徵具有更好的分類能力，或者說，按照這一特徵將訓練資料集分割成子集，使得各個子集在當前條件下有最好的分類，那麼就選擇這個特徵。

資訊增益是什麼？

資訊增益演算法：

資訊增益值的大小是相對訓練資料集而驗的，並且沒有絕對意義。如果如果某個特徵所有的取值都不相同（id）,那麼根據這個特徵對資料集劃分使得條件熵為0，但是這個特徵並不是最優特徵。為消除這種影響引入了特徵的內部資訊

以資訊增益作為劃分訓練資料集的特徵，存在偏向於選擇值較多的特徵的問題，使用資訊增益比可以對這一問題進行校正，這是特徵選擇的另一準則inf

o(d,

a)=−

∑i=1

n∣di

∣∣d∣

log⁡∣d

i∣∣d

∣info(d,a)= - \sum_^n \frac \log \frac

info(d

,a)=

−i=1

∑n∣

d∣∣d

i∣

log∣d∣

∣di

∣很明顯，a的取值越多，內部資訊越大，加入這個懲罰項可以得出資訊增益比的公式 gr(

d,a)

=g(d

,a)i

nfo(

d,a)

g_r(d,a) = \frac

gr(d,

a)=i

nfo(

d,a)

g(d,

a)首先要考慮哪個變數是樹根，哪個是樹節點，為此，我們需要考慮變數的重要性。

不同的方法形成不同的決策樹，決策樹方法會把每個特徵都試一遍，最後選取能夠使分類分的最好的特徵（e.g. 將a屬性作為父節點，產生的純度增益（gaina）要大於b屬性作為父節點，則a作為優先選取的屬性）。

id3演算法

c4.5演算法

cart演算法

決策樹的生成

遞迴地構建二叉決策樹的過程。對回歸樹用平方誤差最小化準則，對分類樹用基尼指數最小化準則，進行特徵選擇，生成二叉樹。

構建決策樹是過多的考慮如何提高對訓練資料的正確分類，從而構建出過於複雜的決策樹，導致對未知的測試資料的分類沒有那麼準確，因此需要對決策樹進行簡化。

決策樹的剪枝基本策略有預剪枝 (pre-pruning) 和後剪枝 (post-pruning)。

決策樹的損失函式：ca(

t)=∑

t=1∣

t∣nt

ht(t

)+a∣

t∣

c_a(t) = \sum_^ n_th_t(t) +a|t|

ca(t)

=t=1

∑∣t∣

ht(

t)+a

∣t∣t為樹t的葉結點，該結點有n

t% n_t

nt個樣本點，ht(

% h_t(t)

ht(t)

為葉結點t的經驗熵。∣t∣

% |t|

∣t∣為樹t

% tt葉結點的數量。

∣ t∣

% |t|

∣t∣可以表示樹的複雜度

當a=0時不考慮樹的複雜度s

當a 無窮大時不考慮與訓練資料的擬合度

剪枝演算法：

輸入：樹t，引數a

輸出：修建後的樹t

a% t_a

ta將連續型的屬性變數進行離散化處理形成決策樹的訓練集：

機器學習之決策樹

機器學習之決策樹

機器學習之決策樹

機器學習之決策樹

相關推薦