詳解決策樹

本科人工智慧和研究生的高階人工智慧課中都學習到了決策樹，現在再來根據西瓜書中的內容詳細的總結一下。

決策樹學習的目的是為了產生一顆泛化能力強，即處理未見示例能力強的決策樹，其基本流程遵循簡單且直觀的「分而治之」策略：

輸入：訓練集d=;

屬性集a=.

過程：函式treegenerate(d,a)

1:生成結點node；

2:ifd中樣本全屬於同一類別cthen

3: 將node標記為c類葉結點；return

4:end if

5:ifa=ord中樣本在a上取值相同then

6: 將node標記為葉結點，其類別標記為d中樣本數最多的類；return

7:endif

8:從a中選擇最優劃分屬性

9:fordo

10: 為node生成乙個分支;令的樣本子集；

11:ifthen

12: 將分支結點標記為葉結點，其類別標記為d中樣本最多的類；return

13:else

14: 以treegenerate(dv,a\" class="mathcode" src=""/>})為分支結點

15:end if

16:end for

輸出:以node為根結點的一棵決策樹

由此可以看出，決策樹的生成是乙個遞迴的過程。在決策樹基本演算法中，有三種情景會導致遞迴返回:

(1)當前結點包含的樣本全屬於同一類別，無需劃分；

(2)當前屬性集為空，或是所有樣本在所有屬性上取值相同，無法劃分

(3)當前結點包含的樣本集合為空，不能劃分

決策樹學習的關鍵是如何選擇最優劃分屬性。一般而言，隨著劃分過程不斷進行，我們希望決策樹的分支結點所包含的樣本盡可能屬於同一類別，即結點的「純度」越來越高。

資訊增益（id3）

增益率（c4.5）

基尼指數(cart)

剪枝是決策樹學習演算法對付「過擬合」的主要手段。在決策樹學習中，為了盡可能正確分類訓練樣本，結點劃分過程將不斷重複，有時會造成決策樹分支過多，這時就可能因訓練樣本學得「太好」了，以致於把訓練集自身得一些特點當作所有資料都具有的一般性質而導致過擬合。因此，課通過主動去掉一些分支來降低過擬合的風險。

決策樹剪枝的基本策略有「預剪枝」和「後剪枝」。預剪枝是指在決策樹生成過程中，對每個結點在劃分前先進行估計，若當前結點的劃分不能帶來決策樹泛化效能提公升，則停止劃分並將當前結點標記為葉結點；後剪枝則是先從訓練集生成一顆完整的決策樹，然後自底向上地對非葉結點進行考察，若將該結點對應的子樹替換為葉結點能帶來決策樹效能提公升，則將該子樹替換為葉結點。

詳解決策樹

決策樹詳解

決策樹詳解（三）

決策樹原理詳解

詳解決策樹

決策樹詳解

決策樹詳解（三）

決策樹原理詳解

相關推薦