機器學習讀書筆記（五）AdaBoost

1）重複地從乙個樣本集合d中取樣n個樣本

2）針對每次取樣的子樣本集，進行統計學習，獲得假設h

i3）將若干個假設進行組合，形成最終的假設h

final

4）將最終的假設用於具體的分類任務

2 bagging方法

自舉匯聚法，也稱為bagging方法。bagging對訓練資料採用自舉取樣，即有放回地取樣資料，主要思想：

1）從原始樣本集中抽取訓練集。每輪從原始樣本集中使用bootstraping的方法抽取n個訓練樣本。共進行k輪抽取，得到k個訓練集

2）每次使用乙個訓練集得到乙個模型，k個訓練集共得到k個模型。（注：這裡並沒有具體的分類演算法或方法，我們可以根據具體問題採用不同的分類，如決策樹等）

3）對分類問題：將上步得到的k個模型採用投票的方式得到分類結果

3 boosting演算法及adaboost演算法

但是，上述這兩種方法，都只是將分類器進行簡單的組合，實際上，並沒有發揮出分類器組合的威力來，直到boosting系列演算法的出現。

早期的boosting演算法，其主要過程如下

1）從樣本整體集合d中，不放回的隨機抽樣n

1 < n

個樣本，得到集合 d

1，訓練弱分類器c

12）從樣本整體集合d中，抽取 n

2 < n

個樣本，其中合併進一半被c

1 分類錯誤的樣本。得到樣本集合 d

2，訓練弱分類器c

23）抽取d樣本集合中，c

1 和 c

2 分類不一致樣本，組成d

3，訓練弱分類器c3

4）用三個分類器做投票，得到最後分類結果

2023年，freund and schapire提出了現在的adaboost演算法，其主要框架可以描述為：

1）迴圈迭代多次，更新樣本分佈，尋找當前分布下的最優弱分類器，計算弱分類器誤差率

2）聚合多次訓練的弱分類器

adaboost是一種比較有特點的演算法，可以總結如下：

1）每次迭代改變的是樣本的分布，而不是重複取樣（re weight)

2）樣本分佈的改變取決於樣本是否被正確分類

總是分類正確的樣本權值低

總是分類錯誤的樣本權值高（通常是邊界附近的樣本）

3）最終的結果是弱分類器的加權組合

權值表示該弱分類器的效能

簡單來說，adaboost有很多優點:

1）adaboost是一種有很高精度的分類器

2）可以使用各種方法構建子分類器，adaboost演算法提供的是框架

3）當使用簡單分類器時，計算出的結果是可以理解的。而且弱分類器構造極其簡單

4）簡單，不用做特徵篩選

5）不用擔心過擬合！

總之：adaboost是簡單，有效。

機器學習讀書筆記

第一章引言介紹一些常識引入什麼是機器學習，機器學習的一些術語資料，規律，泛化，假設空間歸納偏好。1,假設空間假設空間監督學習的目的在於學習乙個由輸入到輸出的對映，這一對映由模型來表示。換句話說，學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合，這個集合就是假設空間 ...

周志華機器學習讀書筆記

分類 classification 的是離散值,比如好瓜壞瓜回歸 regression 的是連續值,例如西瓜成熟度 0.79 0.95 泛化 generalization 學得模型適用於新樣本的能力，稱為泛化 generalization 能力.資料探勘 data mining 從海量資料中...

《機器學習實戰》讀書筆記

監督學習使用兩種型別的目標變數之所以稱監督學習,是因為這類演算法必須知道什麼,即目標變數的分類資訊在無監督學習中,將資料集合分成由類似的物件組成的多個類的過程被稱為聚類將尋找描述資料統計值的過程稱之為密度估計是否要預測目標變數的值是監督學習目標變數型別 begin離散型分類演...

機器學習讀書筆記（五）AdaBoost

機器學習讀書筆記

周志華 機器學習 讀書筆記

《機器學習實戰》讀書筆記

相關推薦

周志華機器學習讀書筆記