機器學習決策樹

用樹的結構，根據各個屬性，對資料進行分類，使劃分後的資料更加純，也就是說葉子節點中盡可能的只有一種型別。

有三種指標，三個指標都是值越小越純淨，小：分布比較集中，大：分布比較平均。

使用資訊增益去衡量，也就是說選擇節點使得劃分後的純度最大，就是選擇熵值減少最多的節點： ga

in(d

,a)=

h(d)

−h(d

|a)

其中h(d

|a) 是條件熵，就是在a的條件下的熵值：h(

d|a)

=∑vv

=1|d

v||d

|h(d

v), 也就是劃分後各個葉子節點的熵值乘以係數|d

v||d

| （節點中資料的數量和總數量的比值）然後相加。

樹構造有三種方式：id3，c4.5，cart

id3用資訊熵和資訊增益進行劃分：

優缺點：

c4.5

由於id3中對型別較多的特徵有偏好這一缺點，產生了c4.5，它對資訊增益的函式進行了優化，使用資訊增益率進行判斷 ga

inra

tio(

d,a)

=gai

n(d,

a)h(

a)其中h(a)為： h(

a)=−

∑v=1

v|dv

||d|

log2

(|dv

||d|

) 一般型別較多的特徵，這個h(a)會比較大。

cart

採用基尼係數劃分屬性，基尼係數直觀來說反映了從資料集隨機抽取兩個樣本，他們不一樣的概率。 ga

in_g

ini(

d,a)

=∑v=

1v|d

v||d

|gin

i(dv

) cart的特點：劃分後是二叉樹，可以用於做回歸分析，如果是**連續值，用cart方法。

預剪枝和後剪枝，劃分節點的時候，檢驗節點的泛化能力，即是用驗證集檢測分類的準確率有沒有提高，有提高就劃分，沒有提高就不劃分。

優劣比較：

一般常用的是預剪枝，因為它的時間效率比較高，但是因為預剪枝是乙個貪心的演算法，直接禁止了這個屬性的節點往下展開，有可能會出現欠擬合的問題，用後剪枝則欠擬合的風險比較小。

c4.5中採用了二分法進行處理，對於d，選擇乙個劃分點t，大於t劃分為：d+

t ，小於t劃分為：d−

t ，對於t的選擇，是遍歷該屬性下的各個相鄰節點的中間值，測試資訊增益，選擇增益最多的劃分點。

對於缺失值存在兩個問題：

（1）有缺失值的屬性，怎麼構建樹，選擇屬性進行劃分

（2）樣本的屬性值缺失怎麼劃分該樣本。

決策樹的分類邊界特點是軸平行，這樣的好處是可解釋性強，但是決策分界線有可能由很多段平行於軸的線段組成，導致決策邊界比較複雜用多變數決策樹可以將模型簡單化，分類不再是單考慮乙個節點而是綜合的考慮多個節點： ∑i

=1dw

iai

例如−0.8∗密度

−0.04∗含

糖量<

−0.313

? 作為樣本的分類依據。

機器學習決策樹

一基本概念決策樹 decision tree 是一種基本的分類與回歸方法。決策樹模型呈樹形結構，在分類問題中，表示屬於特徵對例項進行分類的過程，它可以認為是if then規則的集合，也可以認為是電議在特徵空間與類空空上的條件概率分布，其主要優點是模型具有可讀性，分類速度快。決策樹的學習通常包括3...

機器學習決策樹

我覺得決策樹是機器學習所有演算法中最可愛的了沒有那麼多複雜的數學公式哈哈下圖是一棵決策樹，用來判斷西瓜是好瓜還是壞瓜決策過程中提出的每個判定問題都是都對某個屬性的測試，每個測試結果要麼推導出最終結論，要麼匯出進一步判斷的問題，在上次決策結果限定的範圍內做進一步判斷。從上圖可以看出，葉節點對應決...

機器學習決策樹

一演算法簡介決策樹一般都是自上而下來生成的，每個決策後事件即自然狀態都可能引出兩個或多個事件，導致結果的不同，把這種結構分支畫成形狀很像一棵樹的枝幹，故稱為決策樹。決策樹能夠讀取資料集合，並且決策樹很多任務都是為了資料中所蘊含的知識資訊，因此決策樹可以使用不熟悉的資料集合，並從中提取一系列規...

機器學習 決策樹

機器學習 決策樹

機器學習 決策樹

機器學習 決策樹

相關推薦

機器學習決策樹

機器學習決策樹

機器學習決策樹

機器學習決策樹