GBDT 梯度提公升決策樹

gbdt(gradient boosting decision tree) 又叫 mart（multiple additive regression tree)，是一種迭代的決策樹演算法，該演算法由多棵決策樹組成，所有樹的結論累加起來做最終答案。它在被提出之初就和svm一起被認為是泛化能力較強的演算法。

gbdt中的樹是回歸樹（不是分類樹），gbdt用來做回歸**，調整後也可以用於分類。

gbdt的思想使其具有天然優勢可以發現多種有區分性的特徵以及特徵組合。業界中，facebook使用其來自動發現有效的特徵、特徵組合，來作為lr模型中的特徵，以提高 ctr預估（click-through rate prediction）的準確性（詳見參考文獻5、6）；gbdt在**的搜尋及**業務上也發揮了重要作用（詳見參考文獻7）

回歸樹總體流程類似於分類樹，區別在於，回歸樹的每乙個節點都會得乙個**值，以年齡為例，該**值等於屬於這個節點的所有人年齡的平均值。分枝時窮舉每乙個feature的每個閾值找最好的分割點，但衡量最好的標準不再是最大熵，而是最小化平方誤差。也就是被**出錯的人數越多，錯的越離譜，平方誤差就越大，通過最小化平方誤差能夠找到最可靠的分枝依據。分枝直到每個葉子節點上人的年齡都唯一或者達到預設的終止條件(如葉子個數上限)，若最終葉子節點上人的年齡不唯一，則以該節點上所有人的平均年齡做為該葉子節點的**年齡。（引用自一篇部落格，詳見參考文獻3）

提公升樹利用加法模型和前向分步演算法實現學習的優化過程。當損失函式時平方損失和指數損失函式時，每一步的優化很簡單，如平方損失函式學習殘差回歸樹。

但對於一般的損失函式，往往每一步優化沒那麼容易，如上圖中的絕對值損失函式和huber損失函式。針對這一問題，freidman提出了梯度提公升演算法：利用最速下降的近似方法，即利用損失函式的負梯度在當前模型的值，作為回歸問題中提公升樹演算法的殘差的近似值，擬合乙個回歸樹。（注：鄙人私以為，與其說負梯度作為殘差的近似值，不如說殘差是負梯度的一種特例）演算法如下（截圖來自《the elements of statistical learning》）：

演算法步驟解釋：

最近引起關注的乙個gradient boosting演算法：xgboost，在計算速度和準確率上，較gbdt有明顯的提公升。xgboost 的全稱是extreme gradient boosting，它是gradient boosting machine的乙個c++實現，作者為正在華盛頓大學研究機器學習的大牛陳天奇。xgboost最大的特點在於，它能夠自動利用cpu的多執行緒進行並行，同時在演算法上加以改進提高了精度。它的**秀是kaggle的希格斯子訊號識別競賽，因為出眾的效率與較高的**準確度在比賽論壇中引起了參賽選手的廣泛關注。值得我們在gbdt的基礎上對其進一步探索學習。

參考文獻 1、《the elements of statistical learning》 2、《統計學習方法》 3、 4、 5、 6、《practical lessons from predicting clicks on ads at facebook》 7、 8、

GBDT 梯度提公升決策樹

梯度提公升決策樹 GBDT

梯度提公升決策樹 GBDT）

梯度提公升決策樹（GBDT）演算法

GBDT 梯度提公升決策樹

梯度提公升決策樹 GBDT

梯度提公升決策樹 GBDT）

梯度提公升決策樹（GBDT）演算法

相關推薦