統計學習方法 提公升方法

2021-08-11 02:44:40 字數 1683 閱讀 6543

在分類問題中,通過改變訓練樣本的權重,學習多個分類器,並將這些分類器線性組合,提高分類的效能

1.1 提公升方法adaboost演算法

1.1.1 提公升方法的基本思路

對於乙個複雜任務來說,將多個專家的判斷進行適當的綜合得出的判斷比任何乙個專家單獨的判斷好。「三個臭皮匠頂個諸葛亮」

強可學習:在概率近似正確學習的框架中,乙個概念(類)如果存在乙個多項式學習演算法能夠學習它,並且正確率很高,就稱這個概念是強可學習的

弱可學習:乙個概念如果僅比隨機猜測略好,就成為弱可學習。

對於分類問題而言,求比較粗糙的分類規則(弱分類器)比求精確的分類規則(強分類器)容易的多。提公升方法就是從弱學習演算法出發,反覆學習,得到一系列弱分類器,之後組合構成乙個強分類器。

對adaboost演算法做如下說明:

步驟(1)假設訓練資料具有均勻的權值分布,在原始資料上學到基本分類器

步驟(2)反覆學習基本分類器,在每一輪m=1,2,… 順次執行下次操作

(a)使用當前加權的資料集,計算基本分類器

(b)計算基本分類器在加權訓練資料集上的分類誤差率,是被誤分類樣本的權值之和

(c)計算基本分類器的係數,分類誤差率越小 的分類器在最終分類器中作用越大

(d)更新資料權值分布

步驟(3)線性組合實現m個分類器的加權表決。

1.2 adaboost演算法的訓練誤差分析

adaboost最基本的性質是可以再訓練過程中不斷減少訓練誤差

adaboost演算法最終分類器的訓練誤差界為

1.3adaboost演算法的解釋

可以認為adaboost演算法是模型為加法模型、損失函式為指數函式、學習演算法為前向分布演算法時的二分類學習演算法。

1.3.1 前向分布演算法

學習加法模型,如果能夠從前到後,每一步只學習乙個基函式及其係數,逐步逼近優化目標函式式,就可以簡化優化的複雜度

adaboost演算法是前向分步演算法的特例。這時模型是基本分類器組成的加法模型,損失函式是指數函式

1.4 提公升樹

提公升樹是以分類樹或者回歸樹為基本分類器的提公升方法。被認為是統計學習中效能最好的方法之一。

1.4.1 提公升樹模型

提公升方法實際採用加法模型(基函式的線性組合)和前向分步演算法,以決策樹為基函式的提公升方法稱為提公升樹。

提公升樹模型可以看做決策樹的加法模型。

1.4.2 提公升樹演算法

《統計學習方法》 提公升方法

提公升方法的核心思想是在給定基礎模型的基礎上,通過不斷調整樣本的權重分布訓練一系列的模型,盡最大可能的減少訓練誤差,最後將多個模型按照一定的權重係數進行組合得到最終的模型。通過採用多模型結合的方式,可以提公升模型的穩定性,使模型更準確。pac理論 概率近似正確理論 主要是論證了在概率學習框架下,乙個...

統計學習方法8 提公升方法

先初始化所有輸入的輸出結果,假設為a。計算實際的結果與a差值,累加所有樣本的這個差值。得到損失函式。求出使該損失函式最小的a。在確定了a的基礎上,將所有樣本輸出值與a做差,得到殘差1,作為新的樹的樣本依據。初始化第二顆樹的輸出結果為b,以得到的殘差1為基礎,將b與殘差1做差並類和,得到這一次的損失函...

筆記 《統計學習方法》 8 提公升方法

提公升 boosting 要解決的兩個問題 1 每一輪如何改變訓練資料的權值和概率分布 2 弱分類器如何組合成乙個強分類起 adaboost的做法 1 提高被前一輪弱分類器錯誤分類樣本的權值,而降低哪些被正確分類樣本的權值 2 弱分類器的組合,採用加權多數表決的方法 4.adaboost演算法 略 ...