《統計學習方法》筆記 AdaBoost

2021-08-02 07:58:38 字數 1744 閱讀 4346

整合方法就是通過組合多個分類器的分類結果,獲得比簡單的分類器更好的分類結果。

使用整合方法的多種形式:

1)可以是不同演算法的整合

2)可以是同一演算法在不同設定下的整合

3)資料集不同部分分配給不同分類器之後的整合

下面介紹同一種分類器多個不同例項的兩種計算方法(基於資料隨機重抽樣的分類器構建方法):

bagging(自舉匯聚法)

bagging是在原始資料集選擇s次後得到s個資料集的技術。每個資料集都是通過該在原始資料及中隨機選擇乙個樣本來進行替換而得到的(這裡的意思是從原始集合中隨機選擇乙個樣本,然後隨機選擇乙個樣本來代替這個樣本)。新資料集和原資料集的大小相等。這就意味著可以多次的選擇同乙個樣本,即允許新資料集中可以有重複的值,而原始資料集中的某些值再新資料集中則不再出現。

在s個資料集劃分好之後,將某個學習演算法分別作用於每個資料集,就得到了s個分類器。當我們要對新資料進行分類時,就可以應用這s個分類器進行分類。選擇分類器投票結果最多的類別作為最後的分類結果。

boosting

boosting與bagging的區別:

bagging:不同的分類器通過序列訓練獲得,每個新分類器都根據已訓練出的分類的效能來進行訓練。bagging中分類器的權重是相等的,

boosting:集中關注被已有分類器錯分的那些資料來獲得新的分類器。基於所有分類器的加權求和結果,分類器的權重不相等,每個權重代表的是其對應分類器在上一輪迭代中的成功度。

adaboost是adaptive boosting(自適應boosting)的縮寫。其過程如下:

訓練資料中的每個樣本賦予乙個權重,這些權重構成了向量d。一開始,這些權重都初始化為相等的值。首先,在訓練資料上訓練出乙個弱分類器並計算該分類器的錯誤率;然後,在同一資料集上再次訓練弱分類器。在分類器的第二次訓練當中,將會重新調整每個樣本的權重(第一次分對的樣本的權重降低,分錯的樣本的權重增加)。最後,為了從所有弱分類器中得到最終的分類結果,adaboost為每個分類器分配乙個權重值alpha,這些alpha是基於每個弱分類器的錯誤率進行計算的。其中,錯誤率的定義為:ε=

未正確分

類的樣本

數目所有

樣本數目

alpha計算公式如下:α=

12ln(

1−εε

) 計算出alpha值之後,可以對權重向量d進行更新,以使得那些正確分類的樣本的權重降低而錯分樣本的權重公升高。d的計算方法如下:

正確樣本的權重更新:d(

t+1)

i=di

(t)e

−αsu

m(d)

而如果某個樣本被錯分,那麼該樣本的權重更改為:d(

t+1)

i=di

(t)e

αsum

(d)

在計算出d之後,adaboost又開始進入下一輪迭代。adaboost演算法會不斷重複訓練和調整權重的過程,直到訓練錯誤率為0或者弱分類器的數目達到使用者的指定值為止。

優點:泛化錯誤率低,易編碼,可以應用在大部分分類器上,無引數調整。

缺點:對離群點敏感

適用資料型別:數值型和標稱型資料

統計學習方法筆記1 統計學習方法概論

統計學習是關於計算機基於資料構建概率統計模型並運用模型對資料進行 與分析的一門學科。從資料出發,提取資料的特徵,抽象出資料的模型,發現資料中的知識,又回到對資料的分析與 中去。統計學習關於資料的基本假設是同類資料具有一定的統計規律性,這是統計學習的前提。這裡的同類資料是指具有某種共同性質的資料,例如...

統計學習方法筆記

1.損失函式 期望,就是均值 極大似然估計 似然就是概率 可能性,所以也是極大可能性估計 對數損失是用於最大似然估計的。一組引數在一堆資料下的似然值,等於每一條資料的概率之積。而損失函式一般是每條資料的損失之和,為了把積變為和,就取了對數 再加個負號是為了讓 最大似然值和 最小損失對應起來 w 是w...

《統計學習方法》筆記一 統計學習方法概論

好久沒有更新部落格了,這次主要想整理一下之前學習過的機器學習和深度學習有關的知識。我本身數學專業基礎比較薄弱,另外主要做計算機視覺應用所以這個系列的文章並不會涉及很多數學理論知識,學習這些機器學習方法也主要是為了找工作而用,主要了解其中的思想和非常基礎的推導過程。一 統計學習的分類 統計學習方法是基...