CART回歸樹與分類樹

2022-06-12 15:09:09 字數 560 閱讀 4127

輸出是連續變數的是回歸樹,輸出是離散變數的是分類樹。

cart決策樹是乙個二叉樹。

輸入空間劃分為m個單元

,單元對應輸出

,是其對應的輸入空間。輸出取

上所有輸出的均值:

下面,看輸入空間的劃分方法。

假設最優切分變數

,最優切分點

,輸入空間被劃分為兩部分:

它們的輸出是各自輸入空間中樣本標籤值

的均值和

。因此,優化目標為:

窮舉,找到最優切分變數

和切分點

。之後,分治遞迴直到滿足終止條件(例如誤差小於某閾值、樣本個數小於某閾值、沒有更多特徵等)。

乙個樣本集合

的基尼指數(值越大,不確定性越大):

其中,是屬於第

類的樣本子集。

將樣本集合

劃分為和

的兩部分

和,對這種劃分定義基尼指數:

它表徵了經分割後,樣本集合d的不確定性,同樣地,基尼指數越小,樣本不確定性越小。

選擇使最小的

。之後,分治遞迴直到滿足終止條件即可。

CART分類與回歸樹

十大經典資料探勘演算法 系列 c4.5 k means svmapriori empagerank adaboost knnna ve bayes cart 分類與回歸樹 classification and regression trees,cart 是由四人幫leo breiman,jerome...

CART分類回歸樹

cart分類回歸樹1984年提出,id3演算法1986年提出,c4.5演算法1993年提出 cart由特徵選擇 樹的生成及剪枝組成。cart假設決策樹是二叉樹,內部結點特徵取值為是和否 cart使用損失函式最小作為剪枝的標準。回歸樹的生成 使用平方誤差最小化準則。對於任意劃分特徵a,對應的任意劃分點...

CART分類和回歸樹

cart演算法根據類標號屬性的型別,當類標號屬性是連續型時,生成的模型是回歸樹 離散型則是分類樹。不同於id3演算法可以產生多個分支,cart每次 只能產生兩個分支,所以cart產生的決策樹是一棵二叉樹。雜度 不純度 gini t 1 各類數量在資料集中的概率 的平方和。標準問題集 所有候選分支方案...