統計學習方法 樹模型

2021-10-06 17:26:35 字數 2902 閱讀 7766

樹模型

(上思維導圖來自知乎:夕小瑤)

決策樹演算法主要包括決策樹的生成與剪枝。

決策樹可以從兩個方面解釋

決策樹學習的本質是從訓練資料集中歸納出一組分類規則,也可以看做是對特徵空間劃分類的條件概率分布。

首先,按照根據統計學習三要素來分析決策樹學習的過程:

假設空間:對特徵空間進行劃分所有可能的決策樹

損失函式:正則化的極大似然函式

優化方法:優化就是要在所有可能的的決策樹中選擇損失最小的樹。在所有可能的決策樹選擇最優決策樹是完全np問題。所以決策樹的學習一般使用啟發式的方法近似求解。這樣得到的決策樹是次最優的。

決策樹啟發式學習方法:遞迴的選擇最優特徵,對特徵空間不斷的劃分,也對應著決策樹的構建。決策樹的生成只考慮區域性最優,決策樹的剪枝考慮全域性最優。決策樹的生成主要有id3,c4.5和cart演算法。主要區別在於最優特徵選擇方法的不同。

1.1 id3-資訊增益

id3演算法使用資訊增益來選擇當前的最優特徵。資訊增益是用來衡量給定特徵a後,隨機變數熵下降的程度。用經驗熵h(d)和給定特徵a的條件經驗熵h(d|a)之差來表示。

g ai

n(d,

a)=h

(d)−

h(d∣

a)=h

(d)−

∑i=1

n∣di

∣∣d∣

h(di

)gain(d,a)=h(d)-h(d|a)\\=h(d)-\sum_^n\frach(d_i)

gain(d

,a)=

h(d)

−h(d

∣a)=

h(d)

−i=1

∑n​∣

d∣∣d

i​∣​

h(di

​)h(d)表示熵,用來衡量隨機變數的不確定性。熵越大,不確定性越大。

h (d

)=−∑

k=1k

∣dk∣

∣d∣l

og∣d

k∣∣d

∣h(d)=-\sum_^k\frac\mathop\frac

h(d)=−

k=1∑

k​∣d

∣∣dk

​∣​l

og∣d

∣∣dk

​∣​

1.2 c4.5-資訊增益比

id3演算法中的使用資訊增益選擇最優特徵存在問題:資訊增益傾向於選擇取值較多的特徵。c4.5演算法使用資訊增益比來解決這一問題,對特徵的取值個數加上懲罰。

資訊增益比等於給定特徵a的資訊增益與樣本集關於特徵a的熵的比值。

g ra

te=g

ain(

d,a)

ha(d

)ha(

d)=−

∑i=1

n∣di

∣∣d∣

log∣

di∣∣

d∣g_=\frac\\h_a(d)=-\sum_^n\frac\mathop\frac

grate​

=ha​

(d)g

ain(

d,a)

​ha​

(d)=

−i=1

∑n​∣

d∣∣d

i​∣​

log∣

d∣∣d

i​∣​

特徵a的取值越多,樣本集關於a的熵就越大。資訊增益比就相當於在資訊增益對特徵取值個數增加了懲罰。

1.3 cart樹

cart(classify and regression tree)是用於分類和回歸的二叉樹。回歸樹使用均方誤差最小化準則,分類樹用基尼指數最小化準則。遞迴的構建決策二叉樹。

1.3.1 回歸樹

回歸樹使用均方誤差。遍歷所有的特徵,以及該特徵的取值作為切分變數和切分點。將劃分後各葉節點的均值作為**值。選擇均方誤差最小的劃分變數和劃分點對特徵空間進行劃分。遞迴進行以上過程,直到達到停止條件。

1.3.2 分類樹

分類樹使用基尼指數。

g in

i(p)

=∑k=

1kpk

(1−p

k)=1

−∑k=

1kpk

2gini(p)=\sum_^kp_k(1-p_k)=1-\sum_^kp_k^2

gini(p

)=k=

1∑k​

pk​(

1−pk

​)=1

−k=1

∑k​p

k2​基尼指數表示對隨機變數進行兩次又放回的取樣,這兩次拿到的樣本不屬於同一類的概率。與熵一樣,反映了隨機變數的混亂程度。

決策樹生成只考慮區域性最優。通過不斷對特徵空間進行劃分,來更好的擬合訓練資料。這樣做很容易過擬合。決策樹的剪枝考慮全域性最優。通過極小化帶正則(代表整棵樹的複雜度)的樹整體損失對生成的決策樹進行剪枝。

l =∑

t=1t

nth(

dt)+

a∣t∣

l=\sum_^tn_th(d_t)+a|t|

l=t=1∑

t​nt

​h(d

t​)+

a∣t∣

其中t表示葉節點的個數。第一項表示樹的整體損失(整棵樹熵的期望),第二項表示樹的複雜度。a是控制兩者影響的比例。

根據剪枝時機的不同,可分為預剪枝和後剪枝。

樹模型大多用於整合學習中,關於樹整合的演算法參見整合學習部分的介紹。

參考:

[1] 李航,統計學習方法

統計學習方法 1 統計學習方法概論

統計學習的主要特點是 1 統計學習以計算機及網路為平台,是建立在計算機及網路之上的 2 統計學習以資料為研究物件,是資料驅動的學科 3 統計學習的目的是對資料進行 與分析 4 統計學習以方法為中心,統計學習方法構建模型並應用模型進行 與分析 5 統計學習是概率論 統計學 資訊理論 計算理論 最優化理...

統計學習方法

這兩天翻了一下這本書,做個筆記,方便下次細看。本書主要講解統計學習中用到的監督學習。介紹了一些模型機器演算法。當參考書不錯,不怎麼適合死磕。第一章 主要介紹機器學習,統計學習的基本步驟,以及常用的表示方法。寫的比較系統,對於這個比較不熟悉的,可以好好看看。因為常用的模型就是這樣表示的,懂了這個看公式...

統計學習方法

第一章 方法概述 統計學習方法三要素 模型,策略,演算法 監督學習的重要問題 分類問題 classification 應用 銀行構建客戶分類模型,網路安全利用日誌資料對入侵檢測,影象處理檢測影象中是否有人臉,手寫識別識別分類手寫數字,網際網路搜尋網頁分類 二類分類評價指標 精確度,召回率,f1值 標...