整合學習和Boosting原理總結

接自 bagging與隨機森林。

整合學習(ensemble learing)通過構建並結合多個學習器來完成學習任務，有時也被稱為多酚類器系統(multi-classifier system),基於委員會的學習(sommittee-baseslearing)等。

以下整合學習介紹來自西瓜書；

個人感覺頗有幾分卷積神經網路的味道，每個卷積核提取部分資訊，逐層向上傳遞，但是神經網路有著很多超引數。

從上述的介紹我們可以看出，如何產生「好而不同」的個體學習器，是整合學習研究的核心。

根據個體學習器的生成方式，整合學習可分為兩大類

1.個體學習器間存在強依賴關係，必須穿行生成的序列化方法(boosting)

2.個體學習器間不存在強依賴關係，可同時生成的並行化方法(bagging和隨機森林)

也可分為如下三類：

1.用於減少方差的bagging

2.用於減少偏差的boosting

3.用於提公升**結果的stacking

整合學習有兩個主要的問題需要解決：

第一是如何得到若干個個體學習器，

第二是如何選擇一種結合策略，將這些個體學習器集合成乙個強學習器。

目前來說，同質個體學習器的應用是最廣泛的，一般我們常說的整合學習的方法都是指的同質個體學習器。而同質個體學習器使用最多的模型是cart決策樹和神經網路。

從圖中可以看出，boosting演算法的工作機制是首先從訓練集用初始權重訓練出乙個弱學習器1，根據弱學習的學習誤差率表現來更新訓練樣本的權重，使得之前弱學習器1學習誤差率高的訓練樣本點的權重變高，使得這些誤差率高的點在後面的弱學習器2中得到更多的重視。然後基於調整權重後的訓練集來訓練弱學習器2.，如此重複進行，直到弱學習器數達到事先指定的數目t，最終將這t個弱學習器通過集合策略進行整合，得到最終的強學習器。

**boosting和bagging的區別在於；**是對加權後的資料利用弱分類器依次進行訓練。簡單來講bagging是並行的，而boosting是序列的，初始化時根據輸入訓練集的各樣本比例作為各樣本的初始權值，然後訓練乙個基學習器，然後根據基學習器的效果，提公升那些被誤判的樣本類的權值(全部樣本都**正確，則正確率為1)，然後將調整後的樣本集進行訓練，之後的每乙個基學習器都要在上乙個學習器完成後並調整樣本權值後才可以進行訓練，因此是序列的，乙個接乙個訓練。

boosting是一族可將弱學習器提公升為強學習器的演算法，這族演算法的工作機制類似：

boosting系列演算法裡最著名演算法主要有adaboost演算法和提公升樹(boosting tree)系列演算法。提公升樹系列演算法裡面應用最廣泛的是梯度提公升樹(gradient boosting tree)。adaboost和提公升樹演算法的原理在後面的文章中會專門來講。

經過bagging和boosting兩種不同方式整合後，緊接對各個學習器生成的結果進行處理，得出乙個結果。而怎麼對各個

學習器的結果進行整合處理則是結合策略，總的來說3類：

3.1平均法

3.2投票法

3.3學習法

詳見。

整合學習和Boosting原理總結

整合學習 bagging和boosting

整合學習 Boosting和Bagging異同

整合學習 boosting和bagging異同

整合學習和Boosting原理總結

整合學習 bagging和boosting

整合學習 Boosting和Bagging異同

整合學習 boosting和bagging異同

相關推薦