《統計學習方法》筆記 AdaBoost

整合方法就是通過組合多個分類器的分類結果，獲得比簡單的分類器更好的分類結果。

使用整合方法的多種形式：

1）可以是不同演算法的整合

2）可以是同一演算法在不同設定下的整合

3）資料集不同部分分配給不同分類器之後的整合

下面介紹同一種分類器多個不同例項的兩種計算方法(基於資料隨機重抽樣的分類器構建方法)：

bagging（自舉匯聚法）

bagging是在原始資料集選擇s次後得到s個資料集的技術。每個資料集都是通過該在原始資料及中隨機選擇乙個樣本來進行替換而得到的（這裡的意思是從原始集合中隨機選擇乙個樣本，然後隨機選擇乙個樣本來代替這個樣本）。新資料集和原資料集的大小相等。這就意味著可以多次的選擇同乙個樣本，即允許新資料集中可以有重複的值，而原始資料集中的某些值再新資料集中則不再出現。

在s個資料集劃分好之後，將某個學習演算法分別作用於每個資料集，就得到了s個分類器。當我們要對新資料進行分類時，就可以應用這s個分類器進行分類。選擇分類器投票結果最多的類別作為最後的分類結果。

boosting

boosting與bagging的區別：

bagging：不同的分類器通過序列訓練獲得，每個新分類器都根據已訓練出的分類的效能來進行訓練。bagging中分類器的權重是相等的，

boosting:集中關注被已有分類器錯分的那些資料來獲得新的分類器。基於所有分類器的加權求和結果，分類器的權重不相等，每個權重代表的是其對應分類器在上一輪迭代中的成功度。

adaboost是adaptive boosting（自適應boosting）的縮寫。其過程如下：

訓練資料中的每個樣本賦予乙個權重，這些權重構成了向量d。一開始，這些權重都初始化為相等的值。首先，在訓練資料上訓練出乙個弱分類器並計算該分類器的錯誤率；然後，在同一資料集上再次訓練弱分類器。在分類器的第二次訓練當中，將會重新調整每個樣本的權重（第一次分對的樣本的權重降低，分錯的樣本的權重增加）。最後，為了從所有弱分類器中得到最終的分類結果，adaboost為每個分類器分配乙個權重值alpha，這些alpha是基於每個弱分類器的錯誤率進行計算的。其中，錯誤率的定義為：ε=

未正確分

類的樣本

數目所有

樣本數目

alpha計算公式如下：α=

12ln(

1−εε

) 計算出alpha值之後，可以對權重向量d進行更新，以使得那些正確分類的樣本的權重降低而錯分樣本的權重公升高。d的計算方法如下：

正確樣本的權重更新：d(

t+1)

i=di

(t)e

−αsu

m(d)

而如果某個樣本被錯分，那麼該樣本的權重更改為：d(

t+1)

i=di

(t)e

αsum

(d)

在計算出d之後，adaboost又開始進入下一輪迭代。adaboost演算法會不斷重複訓練和調整權重的過程，直到訓練錯誤率為0或者弱分類器的數目達到使用者的指定值為止。

優點：泛化錯誤率低，易編碼，可以應用在大部分分類器上，無引數調整。

缺點：對離群點敏感

適用資料型別：數值型和標稱型資料

《統計學習方法》筆記 AdaBoost

統計學習方法筆記1 統計學習方法概論

統計學習方法筆記

《統計學習方法》筆記一統計學習方法概論

《統計學習方法》筆記 AdaBoost

統計學習方法筆記1 統計學習方法概論

統計學習方法筆記

《統計學習方法》筆記一 統計學習方法概論

相關推薦

《統計學習方法》筆記一統計學習方法概論