從決策樹到GBDT

首先，決策樹分為分類樹和回歸樹。gbdt中的樹是回歸樹（不是分類樹），gbdt用來做回歸**，調整後也可以用於分類。

以下羅列了比較好的學習資源，看完就可以掌握gbdt了

決策樹參考：

分類樹回歸樹區別參考：

分類樹

以c4.5分類樹為例，c4.5分類樹在每次分枝時，是窮舉每乙個feature的每乙個閾值，找到使得按照feature<=閾值，和feature>閾值分成的兩個分枝的熵最大的閾值(熵最大的概念可理解成盡可能每個分枝的男女比例都遠離1:1)，按照該標準分枝得到兩個新節點，用同樣方法繼續分枝直到所有人都被分入性別唯一的葉子節點，或達到預設的終止條件，若最終葉子節點中的性別不唯一，則以多數人的性別作為該葉子節點的性別。

總結：分類樹使用資訊增益或增益比率來劃分節點；每個節點樣本的類別情況投票決定測試樣本的類別。

回歸樹

回歸樹總體流程也是類似，區別在於，回歸樹的每個節點（不一定是葉子節點）都會得乙個**值，以年齡為例，該**值等於屬於這個節點的所有人年齡的平均值。分枝時窮舉每乙個feature的每個閾值找最好的分割點，但衡量最好的標準不再是最大熵，而是最小化均方差即(每個人的年齡-**年齡)^2 的總和 / n。也就是被**出錯的人數越多，錯的越離譜，均方差就越大，通過最小化均方差能夠找到最可靠的分枝依據。分枝直到每個葉子節點上人的年齡都唯一或者達到預設的終止條件(如葉子個數上限)，若最終葉子節點上人的年齡不唯一，則以該節點上所有人的平均年齡做為該葉子節點的**年齡。

總結：回歸樹使用最大均方差劃分節點；每個節點樣本的均值作為測試樣本的回歸**值。

————————————————

決策樹、bagging、隨機森林、boosting、adaboost、gbdt、xgboost區別參考：

gbdt演算法例項講解和**：

系統性學習資料（國立台灣大學-林軒田）

blending and bagging：

blending and bagging :: motivation of aggregation

blending and bagging :: uniform blending

結論：uniform blending的操作是求平均的過程，能得到更加穩定的表現（注意，穩定不代表最好）

blending and bagging :: linear and any blending

blending and bagging :: bagging

blending and bagging部分課程學習筆記：

從決策樹到GBDT

從決策樹到GBDT（一）

GBDT 梯度提公升決策樹

梯度提公升決策樹 GBDT

從決策樹到GBDT

從決策樹到GBDT（一）

GBDT 梯度提公升決策樹

梯度提公升決策樹 GBDT

相關推薦