決策樹理論

2021-09-24 09:15:01 字數 1667 閱讀 8983

決策樹學習通常包括3個步驟:

分類決策樹是一種描述分類的樹形結構,旨在基於經驗對目標分類做出判斷。

圖1.1 決策樹模型

以是否區間相親物件為例對決策樹進行理解,可建立如下的決策樹:

構造就是生成一顆完整的決策樹。在構造決策樹的過程中,需要選擇節點的屬性,因此,構造需要解決的問題如下:

構造決策樹,選擇結點屬性,可依據資料的純度做出劃分,每次劃分時選擇純度最高的屬性作為結點。

剪枝是為了防止過擬合現象的發生,可分為:

純度可以理解為資料間相似的程度,在分類樹決策中可作為劃分的依據(希望分類的純度越高越好)。

資訊熵表示資訊的不確定度。

在資訊理論中,隨機離散事件出現的概率存在不確定性。隨機變數x的熵定義為:

h (x

)=−∑

i=0n

pilo

gpih(x)=-\begin \sum_ ^n p_ilog p_i\end

h(x)=−

∑i=0

n​pi

​log

pi​​.h(

y∣x)

=∑i=

1npi

h(y∣

x=xi

)h(y|x)=\begin\sum_^n p_i h(y|x=x_i)\end

h(y∣x)

=∑i=

1n​p

i​h(

y∣x=

xi​)

​以資訊增益作為劃分訓練資料集的特徵,存在偏向於選擇取值較多的特徵的問題,使用資訊增益比可以對這一問題進行校正。

【資訊增益比】特徵 a 對訓練資料集 d 的資訊增益比 gr(

d,a)

g_(d, a)

gr​(d,

a)定義為其資訊增益 g(d

,a)g(d, a)

g(d,a)

與訓練資料集 d 關於特徵 a 的值的熵 ha(

d)h_a(d)

ha​(d)

之比,即

g a(

d,a)

=g(d

,a)h

a(d)

g_a(d, a)=\frac

ga​(d,

a)=h

a​(d

)g(d

,a)​

,其中 ha(

d)=−

∑i=1

n∣di

∣d∣l

og2∣

di∣d

∣h_a(d)=-\begin\sum_^n \frac log_2\frac \end

ha​(d)

=−∑i

=1n​

∣d∣∣

di​​

log2

​∣d∣

∣di​

​​, n是特徵值 a 的取值個數。

c4.5 的生成演算法與 id3 演算法類似, c4.5 演算法對 id3 演算法進行了改進, c4.5 在生成樹的過程中,用資訊增益比來選擇特徵。

cart 又稱分類回歸樹,cart 演算法與 c4.5 演算法類似,cart 在生成樹的過程中,用基尼指數來選擇特徵

參考:

決策樹理論 Decision tree

決策樹面試被提及的題目 1 決策樹的原理 從根結點開始,對例項的某一特徵進行測試,根據測試的結果,將例項分配到其子結點 每乙個子結點對應著該特徵的乙個取值。如此遞迴地對例項進行測試並分配,直至達到葉結點。最後將例項分配到葉結點的類中。2 決策樹的過程 步驟 決策樹學習通常包括3個步驟 特徵選擇 決策...

決策樹基本理論

決策樹一一種基本的分類與回歸的演算法。呈樹形結構,在分類問題中,表示基於特徵對例項進行分類的過程,可以認為是 if then 規則的集合,也可以認為是定義在特徵空間與類上的條件概率分布。主要的優點是 模型具有可讀性,分類速度快,學習資料時,根據損失函式最小化的原則建立決策樹模型,時,對性的資料利用建...

決策樹和CART決策樹

首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...