機器學習 決策樹

2021-08-16 17:09:03 字數 1568 閱讀 4959

用樹的結構,根據各個屬性,對資料進行分類,使劃分後的資料更加純,也就是說葉子節點中盡可能的只有一種型別。

有三種指標,三個指標都是值越小越純淨,小:分布比較集中,大:分布比較平均。

使用資訊增益去衡量,也就是說選擇節點使得劃分後的純度最大,就是選擇熵值減少最多的節點: ga

in(d

,a)=

h(d)

−h(d

|a)

其中h(d

|a) 是條件熵,就是在a的條件下的熵值:h(

d|a)

=∑vv

=1|d

v||d

|h(d

v), 也就是劃分後各個葉子節點的熵值乘以係數|d

v||d

| (節點中資料的數量和總數量的比值)然後相加。

樹構造有三種方式:id3,c4.5,cart

id3用資訊熵和資訊增益進行劃分:

優缺點:

c4.5

由於id3中對型別較多的特徵有偏好這一缺點,產生了c4.5,它對資訊增益的函式進行了優化,使用資訊增益率進行判斷 ga

inra

tio(

d,a)

=gai

n(d,

a)h(

a)其中h(a)為: h(

a)=−

∑v=1

v|dv

||d|

log2

(|dv

||d|

) 一般型別較多的特徵,這個h(a)會比較大。

cart

採用基尼係數劃分屬性,基尼係數直觀來說反映了從資料集隨機抽取兩個樣本,他們不一樣的概率。 ga

in_g

ini(

d,a)

=∑v=

1v|d

v||d

|gin

i(dv

) cart的特點:劃分後是二叉樹,可以用於做回歸分析,如果是**連續值,用cart方法。

預剪枝和後剪枝,劃分節點的時候,檢驗節點的泛化能力,即是用驗證集檢測分類的準確率有沒有提高,有提高就劃分,沒有提高就不劃分。

優劣比較:

一般常用的是預剪枝,因為它的時間效率比較高,但是因為預剪枝是乙個貪心的演算法,直接禁止了這個屬性的節點往下展開,有可能會出現欠擬合的問題,用後剪枝則欠擬合的風險比較小。

c4.5中採用了二分法進行處理,對於d,選擇乙個劃分點t,大於t劃分為:d+

t ,小於t劃分為:d−

t ,對於t的選擇,是遍歷該屬性下的各個相鄰節點的中間值,測試資訊增益,選擇增益最多的劃分點。

對於缺失值存在兩個問題:

(1) 有缺失值的屬性,怎麼構建樹,選擇屬性進行劃分

(2) 樣本的屬性值缺失怎麼劃分該樣本。

決策樹的分類邊界特點是軸平行,這樣的好處是可解釋性強,但是決策分界線有可能由很多段平行於軸的線段組成,導致決策邊界比較複雜用多變數決策樹可以將模型簡單化,分類不再是單考慮乙個節點而是綜合的考慮多個節點: ∑i

=1dw

iai

例如−0.8∗密度

−0.04∗含

糖量<

−0.313

? 作為樣本的分類依據。

機器學習 決策樹

一 基本概念 決策樹 decision tree 是一種基本的分類與回歸方法。決策樹模型呈樹形結構,在分類問題中,表示屬於特徵對例項進行分類的過程,它可以認為是if then規則的集合,也可以認為是電議在特徵空間與類空空上的條件概率分布,其主要優點是模型具有可讀性,分類速度快。決策樹的學習通常包括3...

機器學習 決策樹

我覺得決策樹是機器學習所有演算法中最可愛的了 沒有那麼多複雜的數學公式哈哈 下圖是一棵決策樹,用來判斷西瓜是好瓜還是壞瓜 決策過程中提出的每個判定問題都是都對某個屬性的測試,每個測試結果要麼推導出最終結論,要麼匯出進一步判斷的問題,在上次決策結果限定的範圍內做進一步判斷。從上圖可以看出,葉節點對應決...

機器學習 決策樹

一 演算法簡介 決策樹一般都是自上而下來生成的,每個決策後事件 即自然狀態 都可能引出兩個或多個事件,導致結果的不同,把這種結構分支畫成形狀很像一棵樹的枝幹,故稱為決策樹。決策樹能夠讀取資料集合,並且決策樹很多任務都是為了資料中所蘊含的知識資訊,因此決策樹可以使用不熟悉的資料集合,並從中提取一系列規...