隨機森林與梯度提公升樹

2021-10-23 00:19:50 字數 698 閱讀 7160

提公升樹模型:

提公升方法實際採用加法模型(即基函式的線形組合)與前向分步演算法。以決策樹為基函式的提公升方法稱為提公升樹。對分類問題決策樹是二叉分類樹。提公升樹模型可以表示為決策樹的加法模型:fmx=m=1mt(x;θm),其中t(x;θm)表示決策樹;θm為決策樹的引數;m為樹的個數。

提公升樹演算法採用前向分步演算法。首先確定初始提公升樹f0x=0,第m步的模型是fmx=fm-1x+t(x;θm),其中fm-1x為當前模型,通過經驗風險極小化確定下一棵決策樹的引數θm。

回歸模型的提公升樹

假設採用平方誤差損失函式時,

對回歸問題的提公升樹演算法來說,只需簡單擬合當前模型的殘差。

但對一般損失函式而言,往往每一步優化並不那麼容易,針對這一問題,freidman提出了梯度提公升演算法,這是利用最速下降法的近似方法,其關鍵是利用損失函式的負梯度在當前模型的值。作為回歸問題提公升樹演算法中的殘差的近似值擬合乙個回歸樹。

隨機森林與梯度提公升樹

在演算法層面,隨機森林通過對資料集進行隨機取樣來構建訓練樣本,認為隨機化有利於模型在測試集上的泛化效能。而梯度提公升樹根據訓練資料尋找所有決策樹的最優的線形組合。

隨機森林比梯度提公升樹更容易訓練,隨機森林只需要設定乙個超引數即可,每個結點上隨機選取的特徵數量,大多數情況下設定為log2的特徵總數或特徵總數的平方根,就可以取得不錯的效果。而梯度提公升樹引數則包括了提公升樹的數量、深度和學習率等。

隨機森林比梯度提公升樹更難過擬合。

提公升樹與梯度提公升樹演算法

我們對boosting家族的adaboost演算法做了總結,本文就對boosting家族中另乙個重要的演算法梯度提公升樹 gradient boosting decison tree,以下簡稱gbdt 做乙個總結。gbdt有很多簡稱,有gbt gradient boosting tree gtb g...

提公升樹,梯度提公升樹(GBDT)筆記

決策樹可以分為二叉分類樹或者二叉回歸樹,剛剛我們講了分類樹,現在介紹一下回歸樹。回歸問題是用來處理連續值。提公升樹採用了前向分布演算法,模型如下 公式分析 演算法目標 圖中的x,y圖表示的就是,曲線上的點就是這個回歸樹所 到的殘差的 值,我們最後要的就是 值接近真實的殘差就是去擬合這個殘差 fitt...

梯度提公升樹GBDT

上一節我們講了adaboost,而提公升樹也是提公升方法的一種,它的基分類器為分類樹或者回歸樹。ps 首先我們講一下殘差的概念 殘差是指實際值和估計值之間的差,就是相減。一般提公升樹的模型的損失函式是平方損失和對數損失,所以優化很簡單。但是對一般損失函式而言就有困難,所以又有了梯度提公升演算法,然後...