機器學習讀書筆記(五)AdaBoost

2022-09-12 03:36:13 字數 1355 閱讀 5078

1)重複地從乙個樣本集合d中取樣n個樣本

2)針對每次取樣的子樣本集,進行統計學習,獲得假設h

i3)將若干個假設進行組合,形成最終的假設h

final

4)將最終的假設用於具體的分類任務

2 bagging方法

自舉匯聚法,也稱為bagging方法。bagging對訓練資料採用自舉取樣,即有放回地取樣資料,主要思想:

1)從原始樣本集中抽取訓練集。每輪從原始樣本集中使用bootstraping的方法抽取n個訓練樣本。共進行k輪抽取,得到k個訓練集

2)每次使用乙個訓練集得到乙個模型,k個訓練集共得到k個模型。(注:這裡並沒有具體的分類演算法或方法,我們可以根據具體問題採用不同的分類,如決策樹等)

3)對分類問題:將上步得到的k個模型採用投票的方式得到分類結果

3 boosting演算法及adaboost演算法

但是,上述這兩種方法,都只是將分類器進行簡單的組合,實際上,並沒有發揮出分類器組合的威力來,直到boosting系列演算法的出現。

早期的boosting演算法,其主要過程如下

1)從樣本整體集合d中,不放回的隨機抽樣n

1 < n

個樣本,得到集合 d

1,訓練弱分類器c

12)從樣本整體集合d中,抽取 n

2 < n

個樣本,其中合併進一半被c

1 分類錯誤的樣本。得到樣本集合 d

2,訓練弱分類器c

23)抽取d樣本集合中,c

1 和 c

2 分類不一致樣本,組成d

3,訓練弱分類器c3

4)用三個分類器做投票,得到最後分類結果

2023年,freund and schapire提出了現在的adaboost演算法,其主要框架可以描述為:

1)迴圈迭代多次,更新樣本分佈,尋找當前分布下的最優弱分類器,計算弱分類器誤差率

2)聚合多次訓練的弱分類器

adaboost是一種比較有特點的演算法,可以總結如下:

1)每次迭代改變的是樣本的分布,而不是重複取樣(re weight)

2)樣本分佈的改變取決於樣本是否被正確分類

總是分類正確的樣本權值低

總是分類錯誤的樣本權值高(通常是邊界附近的樣本)

3)最終的結果是弱分類器的加權組合

權值表示該弱分類器的效能

簡單來說,adaboost有很多優點:

1)adaboost是一種有很高精度的分類器

2)可以使用各種方法構建子分類器,adaboost演算法提供的是框架

3)當使用簡單分類器時,計算出的結果是可以理解的。而且弱分類器構造極其簡單

4)簡單,不用做特徵篩選

5)不用擔心過擬合!

總之:adaboost是簡單,有效。

機器學習讀書筆記

第一章 引言介紹一些常識引入什麼是機器學習,機器學習的一些術語資料,規律,泛化,假設空間歸納偏好。1,假設空間 假設空間 監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示。換句話說,學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間 ...

周志華 機器學習 讀書筆記

分類 classification 的是離散值,比如 好瓜 壞瓜 回歸 regression 的是連續值,例如西瓜成熟度 0.79 0.95 泛化 generalization 學得模型適用於新樣本的能力,稱為 泛化 generalization 能力.資料探勘 data mining 從海量資料中...

《機器學習實戰》讀書筆記

監督學習使用兩種型別的目標變數 之所以稱監督學習,是因為這類演算法必須知道 什麼,即目標變數的分類資訊 在無監督學習中,將資料集合分成由類似的物件組成的多個類的過程被稱為聚類 將尋找描述資料統計值的過程稱之為密度估計 是 否要 預測目標 變數的值 是 監督學習 目標變數型別 begin離散型 分類演...