樹模型 CART樹

cart樹是後面所有模型的基礎，也是核心樹

在id3演算法中我們使用了資訊增益來選擇特徵，資訊增益大的優先選擇。在c4.5演算法中，採用了資訊增益比來選擇特徵，以減少資訊增益容易選擇特徵值多的特徵的問題。但是無論是id3還是c4.5,都是基於資訊理論的熵模型的，這裡面會涉及大量的對數運算。為了簡化模型同時也不至於完全丟失熵模型, cart分類樹演算法使用基尼係數來代替資訊增益比，基尼係數代表了模型的不純度，基尼係數越小，則不純度越低，特徵越好。這和資訊增益(比)是相反的。

cart既可以適應分類任務, 又可以適應回歸任務, 不同的任務, 特徵的選擇方式不一樣

假設有\(k\)個類,第\(k\)個類的概率為\(p_k\), 則基尼係數的表示式為:

\[gini(p)=\sum kp_k(1-p_k)=1-\sum_kp_k^2

\]對於二分類問題, 則公式可以簡化為: \(gnini(p)=2p(1-p)\), p代表屬於第一類樣本的概率

對於給定的樣本集合\(d\), \(k\)個類, 第\(k\)個類別的數量為\(c_k\), 則樣本\(d\)的基尼係數為:

\[gini(d)=1-\sum_^k(\frac)^2

\]顯然, 對於集合\(d\),假設屬性\(a\)的某個值\(a\)將資料集d切分為\(d_1,d_2\),則在特徵a的條件下, d的基尼係數表示式為:

\[gini(d,a)=\fracgini(d_1)+\fracgini(d_2)

\]相比於複雜的對數運算, 基尼係數的運算簡單很多, 對於連續值得處理, cart和c4.5是相同的:連續的二分離散特徵

在cart分類樹中, 其與id3,c4.5並沒有太大的差別, 而回歸則不一樣:

回歸樹模型採用均方差度量: 對於任意劃分的特徵a, 和乙個任意劃分的點s(該點s其實是特徵a裡面的某個值), 將資料集d劃分為\(d_1,d_2\), 這個點s要使\(d_1,d_2\)各自集合的均方差的最小,公式為:

\[min [min \sum_(y_i-c_1)^2 + min \sum_(y_i-c_2)^2 ]

\]其中, \(c\)為樣本輸出均值, 其實就是對應資料集的label的均值

那麼最終這棵樹的方程為:

\[f(x)=\sum_^ c_m i (x \in r_m)

\]其中,\(c_m\)為對應區域的均值, 類似於這樣

cart樹的主要開銷就在為每個特徵尋找最優切分點\(s\)上

樹模型 CART樹

CART回歸樹與分類樹

CART分類回歸樹

CART 回歸樹例項

樹模型 CART樹

CART回歸樹與分類樹

CART分類回歸樹

CART 回歸樹 例項

相關推薦

CART 回歸樹例項