《統計學習方法》第八章提公升方法學習筆記

2021-07-30 09:53:26 字數 2055 閱讀 1569

提公升方法需要解決兩個問題:一是在每一輪如何改變訓練資料的權值或概率分布;二是如何將弱分類器組合成乙個強分類器。對於第乙個問題,adaboost演算法是提高那些前一輪弱分類器錯誤分類樣本的權重,而降低那些被正確分類樣本的權重,這使得那些沒有被正確分類的樣本由於其權重的加大而受到後一輪的弱分類器的更大關注。對於第二個問題,adaboost採取加權多數表決的方法,即加大分類誤差率小的弱分類器的權值,使其在表決中起較大的作用,減小分類誤差率大的若分類器的權值,使其在表決中起較小的作用。

輸入:訓練資料集t=

,其中xi

∈rn,

yi∈ 。

輸出:最終分類器g(

x)(1)初始化訓練資料的權值分布 d1

=(w11

,⋯,w

1i,⋯

,w1n

),w1

i=1n

,i=1

,2,⋯

,n這裡初始情況假設訓練資料集具有均勻的權值分布。

(2)對m=

1,2,

⋯,m (按照以下步驟逐個訓練出m個分類器,迴圈以下操作gm

(x)→

em→α

m→dm+1)

(a)使用具有權值分布dm

的訓練資料集學習,得到基本分類器 gm

(x):

xi→

(b)計算 g

m(x)

在訓練資料集上的分類誤差率 e

m=p(

gm(x

i)≠y

i)=∑

i=1n

wmii

(gm(

xi)≠

yi) wm

i 表示第m個分類器訓練時用到的的第i個樣本的權重,分類誤差率是被 g

m(x)

誤分類樣本的權值之和。

(c)計算 g

m(x)

的係數 α

m=12

log1−e

mem

這裡的對數是自然對數,當 e

m≤12

時, α

m≥0 ,並且 α

m 隨著 e

m 的減小而增大,分類誤差率小的基本分類器在最終分類器中的作用越大。

(d)更新訓練資料集的權值分布 d

m+1=

(wm+

1,1,

⋯,wm

+1,i

,⋯,w

m+1,

n)wm

+1,i

=wmi

zmexp(−α

myig

m(xi

)),i

=1,2

,⋯,n

這裡, z

m 是規範化因子 z

m=∑i

=1nw

miexp(−α

myig

m(xi

))它使 d

m+1 成為乙個概率分布。不改變訓練集,不斷改變訓練資料權重的分布,使得訓練資料作用不同。

(3)構建基本分類器的線性組合 f(

x)=∑

m=1m

αmgm

(x)

得到最終分類器 g(

x)=s

ign(

f(x)

)=si

gn(∑

m=1m

αmgm

(x))

例子

第八章方法(CLR學習)

例項構造器和類 引用型別 構造器是將型別的例項初始化良好狀態的特殊方法。構造器方法在 方法定義元資料表 中始終叫做.ctor constructor的簡稱 建立引用型別的例項時,首先為例項的資料字段分分配呢村,然後初始化物件的附加字段 型別物件指標和同步塊索引 最後呼叫型別的實力構造器來設定物件的初...

統計學習方法 提公升方法

在分類問題中,通過改變訓練樣本的權重,學習多個分類器,並將這些分類器線性組合,提高分類的效能 1.1 提公升方法adaboost演算法 1.1.1 提公升方法的基本思路 對於乙個複雜任務來說,將多個專家的判斷進行適當的綜合得出的判斷比任何乙個專家單獨的判斷好。三個臭皮匠頂個諸葛亮 強可學習 在概率近...

《統計學習方法》 提公升方法

提公升方法的核心思想是在給定基礎模型的基礎上,通過不斷調整樣本的權重分布訓練一系列的模型,盡最大可能的減少訓練誤差,最後將多個模型按照一定的權重係數進行組合得到最終的模型。通過採用多模型結合的方式,可以提公升模型的穩定性,使模型更準確。pac理論 概率近似正確理論 主要是論證了在概率學習框架下,乙個...