從決策樹到GBDT

2021-09-28 13:47:43 字數 1421 閱讀 6828

首先,決策樹分為分類樹和回歸樹。gbdt中的樹是回歸樹(不是分類樹),gbdt用來做回歸**,調整後也可以用於分類。

以下羅列了比較好的學習資源,看完就可以掌握gbdt了

決策樹參考:

分類樹回歸樹區別參考:

分類樹

以c4.5分類樹為例,c4.5分類樹在每次分枝時,是窮舉每乙個feature的每乙個閾值,找到使得按照feature<=閾值,和feature>閾值分成的兩個分枝的熵最大的閾值(熵最大的概念可理解成盡可能每個分枝的男女比例都遠離1:1),按照該標準分枝得到兩個新節點,用同樣方法繼續分枝直到所有人都被分入性別唯一的葉子節點,或達到預設的終止條件,若最終葉子節點中的性別不唯一,則以多數人的性別作為該葉子節點的性別。

總結:分類樹使用資訊增益或增益比率來劃分節點;每個節點樣本的類別情況投票決定測試樣本的類別。

回歸樹

回歸樹總體流程也是類似,區別在於,回歸樹的每個節點(不一定是葉子節點)都會得乙個**值,以年齡為例,該**值等於屬於這個節點的所有人年齡的平均值。分枝時窮舉每乙個feature的每個閾值找最好的分割點,但衡量最好的標準不再是最大熵,而是最小化均方差即(每個人的年齡-**年齡)^2 的總和 / n。也就是被**出錯的人數越多,錯的越離譜,均方差就越大,通過最小化均方差能夠找到最可靠的分枝依據。分枝直到每個葉子節點上人的年齡都唯一或者達到預設的終止條件(如葉子個數上限),若最終葉子節點上人的年齡不唯一,則以該節點上所有人的平均年齡做為該葉子節點的**年齡。

總結:回歸樹使用最大均方差劃分節點;每個節點樣本的均值作為測試樣本的回歸**值。

————————————————

決策樹、bagging、隨機森林、boosting、adaboost、gbdt、xgboost區別參考:

gbdt演算法例項講解和**:

系統性學習資料(國立台灣大學-林軒田

blending and bagging

blending and bagging :: motivation of aggregation

blending and bagging :: uniform blending 

結論:uniform blending的操作是求平均的過程,能得到更加穩定的表現(注意,穩定不代表最好)

blending and bagging :: linear and any blending

blending and bagging :: bagging

blending and bagging部分課程學習筆記:

從決策樹到GBDT(一)

鑑於最近面試總是被問到這類問題,所以這次就是想寫乙個從決策樹到gbdt這一系列的博文。一方面加深記憶,另一方面也供以後方便回頭看。再者若是能夠為也正在機器學習這條路上摸爬滾打的朋友有一點助益就更圓滿了。本部落格是第一部分,主要介紹一下決策樹的基礎 特徵選擇。決策樹演算法主要有三部分 特徵選擇 決策樹...

GBDT 梯度提公升決策樹

gbdt gradient boosting decision tree 又叫 mart multiple additive regression tree 是一種迭代的決策樹演算法,該演算法由多棵決策樹組成,所有樹的結論累加起來做最終答案。它在被提出之初就和svm一起被認為是泛化能力較強的演算法。...

梯度提公升決策樹 GBDT

整合學習經典一類演算法,屬於個體學習器間存在較強依賴關係的一類,需以序列的序列化生成方法構建。原理 所有弱分類器結果相加等於 值,下乙個弱分類器去擬合誤差函式對 值的殘差 值與真實值的誤差 這裡的弱分類器是決策樹。舉例 用gbdt的方法 年齡 step1 在第乙個弱分類器中隨機選擇乙個數字擬合,發現...