隨機森林與梯度提公升樹

提公升樹模型：

提公升方法實際採用加法模型（即基函式的線形組合）與前向分步演算法。以決策樹為基函式的提公升方法稱為提公升樹。對分類問題決策樹是二叉分類樹。提公升樹模型可以表示為決策樹的加法模型：fmx=m=1mt(x;θm)，其中t(x;θm)表示決策樹；θm為決策樹的引數；m為樹的個數。

提公升樹演算法採用前向分步演算法。首先確定初始提公升樹f0x=0，第m步的模型是fmx=fm-1x+t(x;θm)，其中fm-1x為當前模型，通過經驗風險極小化確定下一棵決策樹的引數θm。

回歸模型的提公升樹

假設採用平方誤差損失函式時，

對回歸問題的提公升樹演算法來說，只需簡單擬合當前模型的殘差。

但對一般損失函式而言，往往每一步優化並不那麼容易，針對這一問題，freidman提出了梯度提公升演算法，這是利用最速下降法的近似方法，其關鍵是利用損失函式的負梯度在當前模型的值。作為回歸問題提公升樹演算法中的殘差的近似值擬合乙個回歸樹。

隨機森林與梯度提公升樹

在演算法層面，隨機森林通過對資料集進行隨機取樣來構建訓練樣本，認為隨機化有利於模型在測試集上的泛化效能。而梯度提公升樹根據訓練資料尋找所有決策樹的最優的線形組合。

隨機森林比梯度提公升樹更容易訓練，隨機森林只需要設定乙個超引數即可，每個結點上隨機選取的特徵數量，大多數情況下設定為log2的特徵總數或特徵總數的平方根，就可以取得不錯的效果。而梯度提公升樹引數則包括了提公升樹的數量、深度和學習率等。

隨機森林比梯度提公升樹更難過擬合。