分類決策樹

2021-08-03 16:15:33 字數 1777 閱讀 2833

決策樹是基於特徵對例項進行分類的樹形結構。

決策樹學習演算法包括:特徵選擇、樹的生成和樹的剪枝。

2.1.id3

(1)、針對當前的集合,計算每個特徵的資訊增益

(2)、選擇資訊增益最大的特徵作為當前節點的決策決策特徵

(3)、根據特徵不同的類別劃分到不同的子節點(比如年齡特徵有青年,中年,老年,則劃分到3顆子樹)

(4)、繼續對子節點進行遞迴,直到所有特徵都被劃分 g(

d|a)

=h(d

)−h(

d|a)

h(d)=−∑

k=1k

|ck|

dlog

2|ck

|d h

(d|a

)=∑i

=1nd

idh(

di)

其中資料集為d,di

是d的子集,h(d)是資料集d的熵,h(

di) 是資料集di

的熵,h(d|a)是資料集d對特徵a的條件熵.ck

是d中屬於第k類的樣本子集。n是特徵a取值的個數,k是類的個數。

舉個栗子:

當前特徵是天氣狀況,分類是明天是否會下雨

現在天氣特徵陰天是7個,4個是明天會下雨,3個是明天不下雨

現在天氣特徵多雲是3個,1個是明天會下雨,2個是明天不下雨

h(陰天)=−(

47lo

g247

+37l

og23

7)h(多雲)=−(

47lo

g247

+37l

og23

7)h(d)=−(

510lo

g2510

+510l

og25

10)h(d|天氣狀況) = −(

710h(

陰天)+

310h(

多雲))

g(d|天氣狀況) = h(d)-h(d|天氣狀況)

2.2.c4.5

樣本集合d對特徵a的資訊增益比 gr

(d,a

)=g(

d,a)

h(d)

其中g(d,a)是資訊增益,h(d)是資料集d的熵。

優缺點:

準確率高,但是子構造樹的過程中需要進行多次的掃瞄和排序,所以它的運算效率較低

2.3.cart

樣本集合d的基尼指數 gi

ni(d

)=1−

∑k=1

k(g(

d,a)

h(d)

)2特徵a條件下集合d的基尼指數: gi

ni(d

,a)=

|d1|

|d|g

ini(

d1)+

|d2|

|d|g

ini(

d2)

通常使用資訊增益最大、資訊增益比最大或基尼指數最小為特徵選擇的準則。從根節點開始遞迴生成決策樹。

剪枝前置剪枝:在**節點的時候設計比較苛刻的條件,如不滿足則直接停止**(這樣幹決策樹無法到最優,也無法得到比較好的效果)

後置剪枝:在樹建立完之後,用單個節點代替子樹,節點的分類採用子樹中主要的分類(這種方法比較浪費前面的建立過程)

交叉驗證隨機森林

優點:

計算量簡單,可解釋性強,比較適合處理有缺失屬性值的樣本,能夠處理不相關的特徵;

缺點:

單顆決策樹分類能力弱,並且對連續值變數難以處理;

容易過擬合(後續出現了隨機森林,減小了過擬合現象);

決策樹分類

一 分類的概念 分類是一種重要的資料分析形式,分類方法用於 資料物件的離散類別,而 則用於 資料物件的連續取值 資料分類是兩個階段的過程,包括學習階段和分類階段 學習階段 訓練階段 就是建立描述預先定義的資料類或概念集的分類器 而訓練集是有資料庫元祖和與他們相互關聯的類標號組成 類標號屬性是離散值和...

分類決策樹

決策樹是乙個簡單易用的機器學習演算法,具有很好的實用性。在風險評估 資料分類 專家系統中都能見到決策樹的身影。決策樹其實是一系列的if then規則的集合,它有可讀性良好,分類速度快等優點。把決策樹看成是一些if then規則的集合,在每一層樹上根據屬性的值判斷走勢,至到遇到葉節點,葉節點對應的就是...

決策樹分類

決策樹 decision tree 又稱為判定樹,是運用於分類的一種樹結構。當中的每乙個內部結點 internal node 代表對某個屬性的一次測試,每條邊代表乙個測試結果,葉結點 leaf 代表某個類 class 或者類的分布 class distribution 最上面的結點是根結點。決策樹分...