決策樹模型總結

1 決策樹定義

決策樹分為分類決策樹和回歸決策樹。分類決策樹應用範圍比較廣，其核心思想就是在乙個資料集上找到乙個最優的特徵，然後從這個特徵的選值中找到乙個最優的候選值，根據這個最優候選值將資料集劃分為兩個子資料集，然後遞迴上述操作，直到滿足指定條件為止。以下主要介紹分類決策樹。

決策樹的生成過程主要包括三步：特徵選擇，決策樹生成以及決策樹剪枝。

2 決策樹的特徵選擇和生成方法

決策樹的特徵選擇方法：資訊增益最大化準則，資訊增益比最大化準則，基尼指數最小化準則。

2.1 資訊增益最大化準則（id3演算法）

2.2 資訊增益比最大化準則（c4.5演算法）

2.3 基尼指數最小化準則（cart演算法）

3 決策樹的剪枝

剪枝的目的是為了降低決策樹的過擬合風險，主要有兩種策略：預剪枝和後剪枝。

3.1 預剪枝

預剪枝是指在決策樹生成過程中，對每個結點在劃分前先進行估計，若當前結點的劃分不能帶來決策樹泛化效能的提公升，則停止劃分並將當前結點標記為葉子結點。

優點：顯著減少了決策樹的訓練時間開銷和測試時間開銷。

缺點：引入了欠擬合的風險。

3.2 後剪枝

後剪枝則是先從訓練及生成一顆完整的決策樹，然後自底向上地對非葉子結點進行考察，若該結點對應的子樹替換為葉子結點能夠帶來決策樹泛華效能的提公升，則該子樹替換為葉子結點。

優點：欠擬合風險很小，泛化效能優於預剪枝決策樹。

缺點：訓練時間開銷比未剪枝和預剪枝決策樹都要大得多。

4 決策樹的特徵處理

4.1 連續值處理

連續屬性的可取值數目不再有限，無法像離散屬性那樣通過列舉離散屬性取值來對結點進行劃分，需要對連續屬性進行離散化操作。c4.5演算法常採用二分法對連續屬性進行處理。

4.2 缺失值處理

現實任務中常會遇到樣本的某些屬性缺失的情況，放棄存在屬性取值缺失的樣本和放棄存在取值缺失的屬性都是對資料資訊的浪費。而如何利用這些屬性缺失的樣本進行訓練需要解決兩個問題：首先，如何在屬性缺失的情況下進行屬性的劃分選擇？其次，在給定劃分屬性的情況下，若樣本在該屬性上的值缺失，如何對樣本進行劃分？