xgboost 正則項 XGBoost基本原理

2021-10-13 08:55:55 字數 2519 閱讀 3831

xgboost的實現,我覺得主要還是在於對gbdt的改良上。對於gbdt還是不太熟悉的朋友,請看我這一篇文章《gbdt》。我個人認為這兩者區別主要還是在於細節上,理解了gbdt我認為就差不多等於理解了xgboost。

我重點比較一下xgboost與gbdt兩種演算法的不同:

xgboost的目標函式與gbdt存在泰勒展開項的不同:

最基本的差距就在於xgboost比gbdt多了兩項泰勒展開式。具體這個泰勒展開式是怎麼得到的,是對於什麼展開的呢?我們看:

xgboost演算法可以看成是由k棵樹組成的加法模型:

其中f為所有樹組成的函式空間(這裡的回歸樹也就是乙個分段函式,不同分段的不同取值就構成了一顆樹),與一般機器學習演算法不同的是,加法模型不是學習d維空間的權重,而是直接學習決策樹的集合。

上述加法模型的目標函式定義為:

其中ω表示決策樹的複雜度,那麼該如何定義樹的複雜度呢?比如,可以考慮樹的節點數量、樹的深度或者葉子節點所對應的分數的l2範數等等。

如何來學習加法模型呢?

解這一優化問題,可以用前向分布演算法(forward stagewise algorithm)。有了之前gbdt的基礎,我們知道,加法模型的學習器每次都用函式來擬合上一棵樹沒有擬合完整的殘差,最後將這些殘差全部加起來就會得到對於目標完整的**,這也叫做boosting。具體地,我們從乙個常量**開始,每次學習乙個新的函式,過程如下:

這個公式看起來還是比較拗口,想要理解的話建議看我之前的文章《gbdt》,了解了工作模式這公式就好理解了。

這就會產生乙個新的問題,那個新加入的函式f到底怎麼得到的呢?這個原則還是最小化目標函式。我們可以將我們的目標函式寫為:

變式我們再用平方誤差來衡量我們的損失函式:

其中可能有的朋友對於泰勒公式不是非常熟悉,我將基本的泰勒公式用法寫在這:

我們都知道,泰勒級數展開其實是有無窮多項的,在無窮多項形式裡是嚴格等於,這裡我們暫且只取了前三項省略了後面,所以就是約等於。

那有了泰勒公式的基礎,我們將前面的目標函式變式可以轉化為:

泰勒級數展開三項

其中,g與h分別是損失函式的一階偏導數和二階偏導數,具體數學形式如下:

我們也可以將常數項直接去掉,並不會影響,那就使得目標函式是這個樣子:

由於要學習的函式僅僅依賴於目標函式,從「去掉常數項的目標函式」可以看出只需為學習任務定義好損失函式,並為每個訓練樣本計算出損失函式的一階導數和二階導數,通過在訓練樣本集上最小化目標函式即可求得每步要學習的函式,從而根據加法模型可得最終要學習的模型。

就簡單提一句gbdt與xgboost的區別,明顯可以看出,gbdt沒有採用二次泰勒展開,這個看似很簡單的區別,實際上帶來更快的擬合,也大大縮減了生成樹的規模,減少了執行時間。

xgboost相比於gbdt加入了正則化項(regularization)我們使用損失函式優化是為了避免欠擬合,而使用正則化項就是為了避免過擬合。正則化項與損失函式共同組成了我們的目標函式。xgboost比gbdt多新增了以樹複雜度構成的正則化項,也是xgboost實際表現更為優秀的原因之一

何為正則化項?正則化項的作用是什麼?

我們都知道,我們在優化目標函式的時候,總是希望它更加的「小」,也就是優化一般是最小化的意思。現在我們如果給目標函式加入乙個變數的平方,那麼如果這個變數一旦變大,那麼目標函式為了「最小化」,一定很不喜歡這個變數變大的事實,選擇的時候就會刻意避開會使變數變大的路徑。這大概就是正則化的簡單解釋了。在xgboost中,我們是將樹的複雜度作為正則項加入,那麼優化器在工作的時候,會盡量不讓這個樹更加複雜,也就達到我們的效果。

我們假設xgboost決策樹的葉子節點個數為t,該決策樹是由所有葉子節點對應的值組成的向量w,以及乙個把特徵向量對映到葉子節點索引(index)的函式

則目標函式我們可以寫成:

用g與h代換一下原來的式子,我們就得到了簡化後的式子:

假設樹的結構是固定的,即函式q(x)為固定的,令目標函式的一階導數為0,則可以求出葉子節點j對應的值為:

於是在這種條件下,目標函式的值就變成了:的值

為什麼要計算這兩個值呢?

列舉所有可能的樹的結構q

用目標函式值為每個q計算對應的分數obj,分數越**明結構越好

根據上一步結果,找到分數最小的子節點,生成新的分支,並為每個子節點計算**值

xgboost的**增益與gbdt的比較樹結構數量是無窮的,所以實際上我們不可能列舉所有可能的樹結構。通常情況下,我們採用貪心策略來生成決策樹的每個節點。

我們來看看這個貪心演算法是怎麼工作的:

從深度為0的樹開始,對每個葉節點列舉所有的可用特徵

針對每個特徵,把屬於該節點的訓練樣本根據該特徵值公升序排列,通過線性掃瞄的方式來決定該特徵的最佳**點,並記錄該特徵的最大收益(採用最佳**點時的收益)

選擇收益最大的特徵作為**特徵,用該特徵的最佳**點作為**位置,把該節點生長出左右兩個新的葉節點,並為每個新節點關聯對應的樣本集

回到第1步,遞迴執行到滿足特定條件為止

如何計算每次**的收益呢?假設當前節點記為c,**之後左孩子節點記為l,右孩子節點記為r,則該**獲得的收益定義為當前節點的目標函式值減去左右兩個孩子節點的目標函式值之和:gain=objc-objl-objr,具體地,根據目標函式值公式可得:

函式正則項

正則的引入 正則性衡量函式光滑 可導 正則項則是為了使函式可導而引入的補項。這裡的可導可以引申為通過正則項的引入使得非適定問題變為適定問題。如果按照實際的條件進行求解,函式將出現無窮解現象。當正則項引入時 加入bv範數 函式就變成了可求解函式了。這裡對適定問題定義 1.問題的解存在且唯一 2.定解約...

caffe設定正則化項

caffe提供了兩種正則化,l1和l2,其中l2正則化項是預設存在的,在caffe.proto中可以找到,如下 regularization types supported l1 and l2 controlled by weight decay optional string regulariza...

caffe設定正則化項

caffe提供了兩種正則化,l1和l2,其中l2正則化項是預設存在的,在caffe.proto中可以找到,如下 regularization types supported l1 and l2 controlled by weight decay optional string regulariza...