決策樹相關問題

2021-10-23 16:46:52 字數 2967 閱讀 3750

bagging與boosting

參考資料

決策樹是一種典型的採用貪心策略的分類模型,即用區域性最優解去逼近全域性最優解。

在整個分類過程中,核心的指標是「不純度」(impurity),也就是分得「開不開」,因為對於分類問題,我們總是期望能夠把資料盡可能地不相交地隔開(比較svm的基本思想——尋找最大間隔分離超平面而類,這種屬於「separate」;k-means——相近資料點而類,則屬於「generate」),這樣最終分下來葉節點的純度最高;同時,特徵的增加會導致搜尋空間呈指數級上公升,從而難以獲得全域性最優解。

具體如何實現不純度的度量及優化,則體現在這三種不同的演算法上。

為了看出這三種演算法具體實現不純度度量上的差別,首先我們統一定義誤差率

classification error (t

)=1−

maxi

=1[p

(i∣t

)]

\text(t)= 1- \mathop \limits_ [p(i|t)]

classification error (t

)=1−

i=1ma

x​[p

(i∣t

)]其中 t

tt 表示某節點,而 p(i

∣t

)p(i|t)

p(i∣t)

則為該節點上類別 i

ii 的樣本所佔比例。

id3(iterativedichotomiser3) 「第三代迭代二叉樹」演算法,採用資訊增益(information gain)來衡量不純度,即劃分前後資訊熵的差。

假設劃分前的資料集為 d

dd , 劃分屬性為 a

aa, 那麼該劃分的資訊增益為:

g (s

,a)=

entr

opy(

s)−e

ntro

pya(

s)

g(s,a)= entropy(s)-entropy_a(s)

g(s,a)

=ent

ropy

(s)−

entr

opya

​(s)

差值越大,說明「分得效果越明顯」,則分出來純度越高,效果也越好。這樣我們就希望總是選擇增益最大的特徵,從而更快地達到最優解(模擬梯度下降法),這也就帶來了偏向性。

id3處理的特徵型別是離散型,無法處理缺失值和過擬合。

c4.5演算法是id3的改進版,在資訊增益的基礎上引入了懲罰引數構成資訊增益比。這樣特徵個數越少,懲罰越大,同時特徵取值越小,資訊增益比越大。那麼就不能直接根據資訊增益比選出特徵,而是先根據找出高於平均特徵資訊增益的候選特徵,再選擇資訊增益率高的。

c4.5處理的特徵型別是離散型連續性,能夠處理缺失值,並通過預剪枝後剪枝處理過擬合。

cart(classificationandregressiontree)「分類和回歸樹」演算法,假定決策樹是二叉樹,可以分類也能回歸,並且替代之前的熵模型,改用基尼指數:

gini=1

−∑i=

0c−1

[(p(

i∣t)

)]

2\text=1- \sum \limits_^[(p(i|t))]^2

gini=1

−i=0

∑c−1

​[(p

(i∣t

))]2

對於回歸樹,劃分的準則是均方差最小;對於分類樹,劃分的準則是基尼指數最小。

cart處理的特徵型別也是離散型連續性,也能夠處理缺失值,並通過預剪枝後剪枝處理過擬合。

以上談的都是以單個特徵做劃分,若考慮多個特徵的線性組合,就是多變數決策樹;同時,樣本的改變可能會引起樹結構的較大變化,這時我們考慮引入「隨機」的方法來生成樹,就是「隨機森林」。

bagging與boosing都來自整合學習的想法,是一種組合多個基本模型的訓練方法。

bagging的做法是對所有基本模型實行「民主制」,即「一人一票」,大部分情況下方差較小。

主流方法有:隨機森林

「 ba

ggin

g+決策

樹=隨機

森林

」「bagging + 決策樹 = 隨機森林」

「baggi

ng+決

策樹=隨

機森林」

boosting的做法則是「貴族制」,也就是表現較好的「精英」模型有更高的權重,大部分情況下偏差較小。

主流方法有:adaboost,gradient boosting

[1]:

[2]:

決策樹相關

優點 1 輸出結果易於理解,2 對缺失值不敏感,可以處理無關資料,可以處理非線性資料 3 對於異常點的容錯能力好,健壯性高 由於遞迴分割槽只使用最合適的二分問題來生成決策樹,所以非重要變數不會影響結果。此外,二分問題對資料點集進行中心分割,因此決策樹對極值 即異常值 是具有包容性的。4 不需要提前歸...

決策樹問題彙總

1.簡述決策樹原理?決策樹是一種基本的分類與回歸方法。它可以認為是if then規則的集合,也可以認為是定義在特徵空間與類空間上的條件概率分布。決策樹是一種自上而下,對樣本資料進行樹形分類的過程,由節點和有向邊組成。節點分為內部節點和葉節點,每個內部節點表示乙個特徵或屬性,葉節點表示類別,邊代表劃分...

決策樹和CART決策樹

首先簡單介紹下決策樹 說到決策樹肯定離不開資訊熵 什麼是資訊熵 不要被這名字唬住,其實很簡單 乙個不太可能的時間居然發生了,要比乙個非常可能的時間發生提供更多的資訊。訊息說 今天早上太陽公升起 資訊量是很少的,以至於沒有必要傳送。但另一條訊息說 今天早上日食 資訊量就很豐富。概率越大資訊量就越少,與...