1 決策樹與CART

2021-08-28 19:56:38 字數 1585 閱讀 1187

分類決策樹模型是一種描述對例項進行分類的樹型結構。

演算法流程:遞迴的選取乙個最優特徵,根據該特徵 對訓練資料進行分割,使得各個子資料集有乙個最好的分類過程。如果這些子集已經能夠正確被分類了(就是說所有資料的類別都是乙個), 就可以構建葉子節點,把 這些子集對應到葉子節點中去。不然,任然要選取新的最優特徵,繼續進行分割,直到所有的訓練子集全都被正確分類,每個子集都被分配到了葉子節點上,就完成了決策樹的構建。

用決策樹進行分類就是從根節點開始,對例項某一特徵進行測試,根據測試結果,將例項分到其子節點,這個時候,每個子節點對應了 該特徵的乙個取值。這樣遞迴的對例項進行測試分配,直到達到葉節點。將例項分配到葉節點對應的類中

決策樹學習的本質就是從訓練資料集中歸納出一組規則,與訓練資料矛盾最小,同時具有較好泛化能力。決策樹學習就用極小化損失函式來實現這乙個目標。

過擬合解決方法:以上的決策樹構建方法會對訓練資料有很好地分類效果,但是可能產生過擬合, 因為過多的考慮了如何對訓練資料進行正確分類。我們需要對已知的決策樹進行自下而上的剪枝,去掉過於細分的葉節點,使其退回到父節點,甚至更高的節點,然後將父節點或者更高的節點作為葉子節點。

概括來說,決策樹演算法包括:特徵選擇, 決策樹生成, 剪枝

特徵選擇:選取標準是 對訓練資料具有分類能力的特徵。如果根據乙個特徵進行分類的結果與隨機分類的結果相差不大,那麼扔掉這些特徵也不會有太大的影響。

特徵選取的準則一般是 資訊增益或者 資訊增益比

剪枝的過程

首先根據生成演算法得到的決策樹, 計算每個節點的經驗熵,遞迴的從葉節點往上縮。

決策樹的適用場景:

因為決策樹是基於特徵選擇不同**結果的,所以如果對資料的特徵有很好的理解的話可以使用決策樹

決策樹的缺點:

它是特比容易受到攻擊的分類器,如果認為 的改變一些特徵,分類器就容易產生誤判。

它有較為簡單,所以決策樹的更大的用處就是作為一些更有用的演算法的基石。

決策樹和CART決策樹

首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...

決策樹之CART

本系列分享由三篇部落格組成,建議從前往後閱讀學習。決策樹之id3 決策樹之c4.5 決策樹之cart 前面我們講到了決策樹演算法id3,和c4.5。c4.5是在id3的基礎上發展而來的,c4.5還存在的缺陷有 1 c4.5不能解決回歸的問題。2 c4.5需要進行多個對數計算,效率比較低。3 對於離散...

決策樹(CART演算法)

分類問題中,假設有k個類,樣本點屬於第k類的概率為p kp k pk 則概率分布的基尼指數定義為 其中p kp k pk 表示選中的樣本屬於k kk類別的概率,則這個樣本被分錯的概率為 1 pk 1 p k 1 pk 對於給定的樣本集合d,其基尼指數為 這裡的c kc k ck 是d中屬於第k類的樣...