1)重複地從乙個樣本集合d中取樣n個樣本
2)針對每次取樣的子樣本集,進行統計學習,獲得假設h
i3)將若干個假設進行組合,形成最終的假設h
final
4)將最終的假設用於具體的分類任務
2 bagging方法
自舉匯聚法,也稱為bagging方法。bagging對訓練資料採用自舉取樣,即有放回地取樣資料,主要思想:
1)從原始樣本集中抽取訓練集。每輪從原始樣本集中使用bootstraping的方法抽取n個訓練樣本。共進行k輪抽取,得到k個訓練集
2)每次使用乙個訓練集得到乙個模型,k個訓練集共得到k個模型。(注:這裡並沒有具體的分類演算法或方法,我們可以根據具體問題採用不同的分類,如決策樹等)
3)對分類問題:將上步得到的k個模型採用投票的方式得到分類結果
3 boosting演算法及adaboost演算法
但是,上述這兩種方法,都只是將分類器進行簡單的組合,實際上,並沒有發揮出分類器組合的威力來,直到boosting系列演算法的出現。
早期的boosting演算法,其主要過程如下
1)從樣本整體集合d中,不放回的隨機抽樣n
1 < n
個樣本,得到集合 d
1,訓練弱分類器c
12)從樣本整體集合d中,抽取 n
2 < n
個樣本,其中合併進一半被c
1 分類錯誤的樣本。得到樣本集合 d
2,訓練弱分類器c
23)抽取d樣本集合中,c
1 和 c
2 分類不一致樣本,組成d
3,訓練弱分類器c3
4)用三個分類器做投票,得到最後分類結果
2023年,freund and schapire提出了現在的adaboost演算法,其主要框架可以描述為:
1)迴圈迭代多次,更新樣本分佈,尋找當前分布下的最優弱分類器,計算弱分類器誤差率
2)聚合多次訓練的弱分類器
adaboost是一種比較有特點的演算法,可以總結如下:
1)每次迭代改變的是樣本的分布,而不是重複取樣(re weight)
2)樣本分佈的改變取決於樣本是否被正確分類
總是分類正確的樣本權值低
總是分類錯誤的樣本權值高(通常是邊界附近的樣本)
3)最終的結果是弱分類器的加權組合
權值表示該弱分類器的效能
簡單來說,adaboost有很多優點:
1)adaboost是一種有很高精度的分類器
2)可以使用各種方法構建子分類器,adaboost演算法提供的是框架
3)當使用簡單分類器時,計算出的結果是可以理解的。而且弱分類器構造極其簡單
4)簡單,不用做特徵篩選
5)不用擔心過擬合!
總之:adaboost是簡單,有效。
機器學習讀書筆記
第一章 引言介紹一些常識引入什麼是機器學習,機器學習的一些術語資料,規律,泛化,假設空間歸納偏好。1,假設空間 假設空間 監督學習的目的在於學習乙個由輸入到輸出的對映,這一對映由模型來表示。換句話說,學習的目的就在於找到最好的這樣的模型。模型屬於由輸入空間到輸出空間的對映集合,這個集合就是假設空間 ...
周志華 機器學習 讀書筆記
分類 classification 的是離散值,比如 好瓜 壞瓜 回歸 regression 的是連續值,例如西瓜成熟度 0.79 0.95 泛化 generalization 學得模型適用於新樣本的能力,稱為 泛化 generalization 能力.資料探勘 data mining 從海量資料中...
《機器學習實戰》讀書筆記
監督學習使用兩種型別的目標變數 之所以稱監督學習,是因為這類演算法必須知道 什麼,即目標變數的分類資訊 在無監督學習中,將資料集合分成由類似的物件組成的多個類的過程被稱為聚類 將尋找描述資料統計值的過程稱之為密度估計 是 否要 預測目標 變數的值 是 監督學習 目標變數型別 begin離散型 分類演...