機器學習之決策樹

2021-10-01 19:44:16 字數 1950 閱讀 2725

資訊增益比是什麼?

特徵的選擇

決策樹的構建原理?

決策樹的減枝

離散化處理

不完整資料處理

樹形結構為什麼不需要歸一化?

永遠要記得,成功的決心遠勝於任何東西。

在對訓練資料集分類時,究竟選擇哪個特徵更好?這就要求確定選擇特徵的準則。直觀上如果乙個特徵具有更好的分類能力,或者說,按照這一特徵將訓練資料集分割成子集,使得各個子集在當前條件下有最好的分類,那麼就選擇這個特徵。

資訊增益是什麼?

資訊增益演算法:

資訊增益值的大小是相對訓練資料集而驗的,並且沒有絕對意義。如果如果某個特徵所有的取值都不相同(id),那麼根據這個特徵對資料集劃分使得條件熵為0,但是這個特徵並不是最優特徵。為消除這種影響引入了特徵的內部資訊

以資訊增益作為劃分訓練資料集的特徵,存在偏向於選擇值較多的特徵的問題,使用資訊增益比可以對這一問題進行校正,這是特徵選擇的另一準則inf

o(d,

a)=−

∑i=1

n∣di

∣∣d∣

log⁡∣d

i∣∣d

∣info(d,a)= - \sum_^n \frac \log \frac

info(d

,a)=

−i=1

∑n​∣

d∣∣d

i​∣​

log∣d∣

∣di​

∣​很明顯,a的取值越多,內部資訊越大,加入這個懲罰項可以得出資訊增益比的公式 gr(

d,a)

=g(d

,a)i

nfo(

d,a)

g_r(d,a) = \frac

gr​(d,

a)=i

nfo(

d,a)

g(d,

a)​首先要考慮哪個變數是樹根,哪個是樹節點,為此,我們需要考慮變數的重要性。

不同的方法形成不同的決策樹,決策樹方法會把每個特徵都試一遍,最後選取能夠使分類分的最好的特徵(e.g. 將a屬性作為父節點,產生的純度增益(gaina)要大於b屬性作為父節點,則a作為優先選取的屬性)。

id3演算法

c4.5演算法

cart演算法

決策樹的生成

遞迴地構建二叉決策樹的過程。對回歸樹用平方誤差最小化準則,對分類樹用基尼指數最小化準則,進行特徵選擇,生成二叉樹。

構建決策樹是過多的考慮如何提高對訓練資料的正確分類,從而構建出過於複雜的決策樹,導致對未知的測試資料的分類沒有那麼準確,因此需要對決策樹進行簡化。

決策樹的剪枝基本策略有 預剪枝 (pre-pruning) 和 後剪枝 (post-pruning)。

決策樹的損失函式:ca(

t)=∑

t=1∣

t∣nt

ht(t

)+a∣

t∣

c_a(t) = \sum_^ n_th_t(t) +a|t|

ca​(t)

=t=1

∑∣t∣

​nt​

ht​(

t)+a

∣t∣t為樹t的葉結點,該結點有n

t% n_t

nt​個樣本點,ht(

t)

% h_t(t)

ht​(t)

為葉結點t的經驗熵。∣t∣

% |t|

∣t∣為樹t

% tt葉結點的數量。

∣ t∣

% |t|

∣t∣可以表示樹的複雜度

當a=0時不考慮樹的複雜度s

當a 無窮大時不考慮與訓練資料的擬合度

剪枝演算法:

輸入:樹t,引數a

輸出:修建後的樹t

a% t_a

ta​將連續型的屬性變數進行離散化處理形成決策樹的訓練集:

機器學習之決策樹

在這裡,我想以更直觀的方式幫助各位理解 掌握並且運用 注意 是運用 決策樹,從而為機器學習作鋪墊。ps 但還是希望大家稍微知道決策樹大概是什麼樣子。1.根結點 root node 沒有入邊,但有零條或多條出邊 2.內部結點 internal node 恰有一條入邊和 兩條或多條出邊 3.葉結點 le...

機器學習之決策樹

決策樹是很常見的機器學習分類演算法,竟然叫決策樹,那麼它的模型其實就像樹一樣。通過對樣本集的學習,挖掘出有用的規則。對於程式設計師來說或許以條件語句來看就更好理解了,決策樹可以看成是多個if then條件語句的集合。這種模型等同於我們寫的條件語句,所以它的 分類速度是很快的。來個例子了解下決策樹分類...

機器學習之決策樹

簡介 決策樹是一種基本的分類方法,當然也可以用於回歸。我們一般只討論用於分類的決策樹。決策樹模型呈樹形結構。在分類問題中,表示基於特徵對例項進行分類的過程,它可以認為是if then規則的集合。在決策樹的結構中,每乙個例項都被一條路徑或者一條規則所覆蓋。通常決策樹學習包括三個步驟 特徵選擇 決策樹的...