機器學習決策樹

一、基本概念

決策樹（decision tree）是一種基本的分類與回歸方法。決策樹模型呈樹形結構，在分類問題中，表示屬於特徵對例項進行分類的過程，它可以認為是if-then規則的集合，也可以認為是電議在特徵空間與類空空上的條件概率分布，其主要優點是模型具有可讀性，分類速度快。決策樹的學習通常包括3個步驟：特徵選擇，決策樹的生成和決策樹的修剪。

二、決策樹的生成

略三、常見的決策樹演算法

（1）資訊增益最大：id3

id3演算法就是在每次需要**時，計算每個屬性的增益率，然後選擇增益率最大的屬性進行**。

（2）資訊增益比最大：c4.5

id3演算法存在乙個問題，就是偏向於多值屬性，例如，如果存在唯一標識屬性id，則id3會選擇它作為**屬性，這樣雖然使得劃分充分純淨，但這種劃分對分類幾乎毫無用處。id3的後繼演算法c4.5使用增益率

（gain ratio）的資訊增益擴充，試圖克服這個偏倚。

（3）基尼指數最大cart

三、修枝

在實際構造決策樹時，通常要進行剪枝，這時為了處理由於資料中的雜訊和離群點導致的過分擬合問題。剪枝有兩種：

先剪枝——在構造過程中，當某個節點滿足剪枝條件，則直接停止此分支的構造。

後剪枝——先構造完成完整的決策樹，再通過某些條件遍歷樹進行剪枝

機器學習 決策樹

機器學習 決策樹

機器學習 決策樹

機器學習 決策樹

相關推薦

機器學習決策樹

機器學習決策樹

機器學習決策樹

機器學習決策樹