1 決策樹與CART

分類決策樹模型是一種描述對例項進行分類的樹型結構。

演算法流程：遞迴的選取乙個最優特徵，根據該特徵對訓練資料進行分割，使得各個子資料集有乙個最好的分類過程。如果這些子集已經能夠正確被分類了（就是說所有資料的類別都是乙個），就可以構建葉子節點，把這些子集對應到葉子節點中去。不然，任然要選取新的最優特徵，繼續進行分割，直到所有的訓練子集全都被正確分類，每個子集都被分配到了葉子節點上，就完成了決策樹的構建。

用決策樹進行分類就是從根節點開始，對例項某一特徵進行測試，根據測試結果，將例項分到其子節點，這個時候，每個子節點對應了該特徵的乙個取值。這樣遞迴的對例項進行測試分配，直到達到葉節點。將例項分配到葉節點對應的類中

決策樹學習的本質就是從訓練資料集中歸納出一組規則，與訓練資料矛盾最小，同時具有較好泛化能力。決策樹學習就用極小化損失函式來實現這乙個目標。

過擬合解決方法：以上的決策樹構建方法會對訓練資料有很好地分類效果，但是可能產生過擬合，因為過多的考慮了如何對訓練資料進行正確分類。我們需要對已知的決策樹進行自下而上的剪枝，去掉過於細分的葉節點，使其退回到父節點，甚至更高的節點，然後將父節點或者更高的節點作為葉子節點。

概括來說，決策樹演算法包括：特徵選擇，決策樹生成，剪枝

特徵選擇：選取標準是對訓練資料具有分類能力的特徵。如果根據乙個特徵進行分類的結果與隨機分類的結果相差不大，那麼扔掉這些特徵也不會有太大的影響。

特徵選取的準則一般是資訊增益或者資訊增益比

剪枝的過程

首先根據生成演算法得到的決策樹，計算每個節點的經驗熵，遞迴的從葉節點往上縮。

決策樹的適用場景：

因為決策樹是基於特徵選擇不同**結果的，所以如果對資料的特徵有很好的理解的話可以使用決策樹

決策樹的缺點：

它是特比容易受到攻擊的分類器，如果認為的改變一些特徵，分類器就容易產生誤判。

它有較為簡單，所以決策樹的更大的用處就是作為一些更有用的演算法的基石。

1 決策樹與CART

決策樹和CART決策樹

決策樹之CART

決策樹（CART演算法）

1 決策樹與CART

決策樹和CART決策樹

決策樹之CART

決策樹（CART演算法）

相關推薦