《統計學習方法》筆記（四）提公升方法

強可學習與弱可學習

而boost就是將弱可學習方法提公升為強可學習方法的途徑，所以叫做提公升方法。提公升方法就是從弱可學習演算法出發，反覆學習，得到一系列弱分類器，然後組合這些弱分類器，構成乙個強分類器。根據以上描述，可以看到有兩個問題需要考慮：

在每一輪學習中，訓練資料的權重值如何確定？

組合強分類器時，線性組合的係數如何確定？

演算法輸入：訓練資料集

初始化訓練資料的權值分布：

對於m=1,2,3...m a). 使用具有權值分布dm的訓練資料集學習，得到基本分類器gm(x)→ b). 計算gm(x)在訓練資料集上的誤差率：

構建基本分類器的線性組合並得到最終分類器：

從以上演算法可以看到：最開始步驟1，我們假設了樣本具有均勻的權重分布，它將產生乙個基本分類器g1(x)。步驟2是乙個m從1到m的迴圈過程，每一次迴圈都可以產生乙個弱分類器。

對於b).可以看到，分類誤差率實際上就是被誤分類點的權值之和。

對於d).可以看到，每乙個樣本的權值ω，都與它原來的標籤yi以及**的標籤gm(xi)有關，當**正確即它們同號時，exp指數是乙個負值，這樣就會減小原來樣本點的權重；當**不正確即它們異號時，exp指數是乙個正值，它會增加當前樣本點的權重。這正印證了我們需要使被誤分類樣本的權值更大這個事實。

步驟3中要注意一點的是，所有αi之和並不是等於1的，其僅表示對應分類器的重要性。 f(x)的符號決定了例項x的類，它絕對值的大小，表示分類的確信度

提公升樹提公升樹是以分類樹或者回歸樹為基本分類器的提公升方法，它被廣泛的應用，例如有名的梯度提公升樹gbdt，以及另一篇博文分析的xgboost。提公升樹也是提公升方法的一種，所以它的模型還是加法模型，只是選擇了決策樹作為基函式。則提公升樹的模型為$latex f_(x)=\sum_^ t(x:\theta_)$。對於不同的應用情況，模型可以採用不同的損失函式。對於回歸問題，可以採用平方誤差損失，對於分類問題，可以採用指數損失函式，這裡的損失函式一般都只包含了經驗損失，並未關注結構風險，這是乙個缺點。

梯度提公升樹演算法

梯度提公升樹利用損失函式的負梯度在當前模型的值，即$latex -[\frac))}})}]_ (x)}$，作為回歸問題提公升樹演算法中的殘差的近似值而擬合回歸樹。關於提公升樹，可參考xgboost博文。

《統計學習方法》筆記（四）提公升方法

統計學習方法提公升方法

《統計學習方法》提公升方法

筆記《統計學習方法》 8 提公升方法

《統計學習方法》筆記（四）提公升方法

統計學習方法 提公升方法

《統計學習方法》 提公升方法

筆記 《統計學習方法》 8 提公升方法

相關推薦

統計學習方法提公升方法

《統計學習方法》提公升方法

筆記《統計學習方法》 8 提公升方法