決策樹的補充 剪枝與CART樹

2021-09-19 12:15:18 字數 678 閱讀 3772

1.剪枝:

預剪枝顯著減少了決策樹的訓練時間,但另一方面,預剪枝本質上禁止這些分支展開,所以可能帶來欠擬合的風險。通常採用留出法進行驗證,將一部分訓練集劃分為驗證集。

後剪枝決策樹的欠擬合風險小,泛化能力往往優於預剪枝,但是後剪枝過程是在生成決策樹之後進行的,所以訓練時間肯定比預     剪枝高出很多。

2.cart樹:

基尼值:

集合d的特徵a的某一取值a(切分點)被分割成d_1 ,d_2 = d - d_1 兩部分,則在條件a下a的基尼指數定義為:

基尼指數越小越好,越小表明純度越高,計算出所有的切分點,選擇最小的做為最優切分點,重複這樣的操作,當樣本個數小於預定閾值或者樣本集的基尼指數小於預定閾值(樣本基本屬於同一類),或者沒有更多特徵,停止計算

同樣的尋找最小切分點,不過回歸樹使用的是最小二乘法

首先有5個變數需要明確:s、r1、r2、c1、c2 

其中:s = 所有的間隙,比如 1與2的間隙為1.5,2與3的間隙是2.5

求得不同的s產生的m(s),得到最小的m(s)時:

然後計算殘差:

得到的殘差有兩個用處:

第一計算平方損失誤差,當損失誤差小於某個數後就可以停止向下傳遞:

第二利用殘差作為我們新的y,以便後續繼續進行t2(x),t3(x).....

CART決策樹剪枝個人理解

cart決策樹剪枝個人理解 在看統計學習方法關於cart樹的剪枝是,感覺書上講得很迷惑,因此基於其他部落格以及書上內容得出自己的理解。首先確定cart樹的損失函式 c t c t t 式中c t 表示 的精度,即子樹t的錯誤數量 測試集數量,t 表示子樹t的葉子節點數量 c t 表示子樹t的整體損失...

決策樹的剪枝和CART演算法

在資料探勘中,決策樹主要有兩種型別 分類樹的輸出是樣本的類標。針對y是離散變數。回歸樹的輸出是乙個實數 例如房子的 病人呆在醫院的時間等 針對y是連續變數。cart與id3區別 cart中用於選擇變數的不純性度量是gini指數 如果目標變數是標稱的,並且是具有兩個以上的類別,則cart可能考慮將目標...

cart決策樹剪枝的個人理解

先說好前面部分我引用自以下這篇文章的,我不想寫了 我們這裡用的是代價複雜度剪枝演算法。首先我們將一顆充分生長的樹稱為t0 我們希望減少樹的大小來防止過擬化,但又擔心去掉一些節點後 的誤差會增大,那麼如何達到這兩個變數之間的平衡則是問題的關鍵,因此我們用乙個變數 來平衡,因此損失函式定義為如下 t為任...