04 06 梯度提公升樹

三、回歸梯度提公升樹流程

四、梯度提公升樹優缺點

五、小結

人工智慧從入門到放棄完整教程目錄：

梯度提公升樹(gradien boosting decision tree，gbdt)在工業上用途廣泛，屬於最流行、最實用的演算法之一，梯度提公升樹可以看成是提公升樹的優化版。

梯度提公升樹和提公升樹

回歸梯度提公升樹流程

梯度提公升樹優缺點

梯度提公升樹其實流程和提公升樹差不多，但是在損失函式擬合方面，提公升樹損失函式擬合用的是平方損失，而梯度提公升樹則是使用損失函式的負梯度來擬合本輪損失的近似值，進而擬合乙個回歸樹。

第$t$輪第$i$樣本的損失函式的負梯度表示為

\[r_=-}}]}_(x)}

\]利用$(x_i,r_),\quad(i=1,2,\cdots,m)$，我們可以擬合一顆cart回歸樹，得到了第$t$棵回歸樹，它對應的葉節點區域為$r_,\quad(j=1,2,\cdots,j)$，其中$j$為葉子節點數。

有$m$個資料$n$個特徵的訓練資料集$t=\$，損失函式為$l(y,f(x))$。

回歸樹$\hat$。

初始化\[f_0(x) = \underbrace_c\sum_^ml(y_i,c)

\]對$i=1,2,\cdots,m$

對$i=1,2,\cdots,m$，計算

\[r_=-}}]}_(x)}

1. 對$r_$擬合乙個回歸樹，得到第$m$棵樹的葉節點區域$r_,\quad$

2. 對$j=1,2,\cdots,j$，計算

\[c_ = \underbrace_c\sum_}}l(y_i,f_(x_i)+c)

1. 更新

\[f_m(x)=f_(x)+\sum_^jc_i(x\in})

\]得到回歸樹

\[\hat=f_m(x)=\sum_^m\sum_^jc_i(x\in})

\]相比較svm，較少的調參時間即可得到乙個準確率還不錯的模型

相比較提公升樹，利用了損失函式的負梯度在當前模型的值作為提公升樹演算法中殘差值的近似值，即對於回歸和分類問題找到了一種通用的擬合損失誤差的方法

由於弱學習器之間存在依賴，無法支援並行

梯度提公升樹雖然在某種程度解決了提公升樹對於分類和回歸問題使用不同的損失函式的問題，並且使用損失函式的負梯度作為提公升樹演算法殘差值的近似值，提公升了模型的準確度，但是他還無法做到並行。下面介紹的xgboost作為gbdt的公升級版，將會解決這個問題。