整合學習綜述

在機器學習的有監督學習演算法中，我們的目標是學習出乙個穩定的且在各個方面表現都較好的模型，但實際情況往往不這麼理想，有時我們只能得到多個有偏好的模型（弱監督模型，在某些方面表現的比較好）。整合學習就是組合這裡的多個弱監督模型以期得到乙個更好更全面的強監督模型，整合學習潛在的思想是即便某乙個弱分類器得到了錯誤的**，其他的弱分類器也可以將錯誤糾正回來。整合方法是將幾種機器學習技術組合成乙個**模型的元演算法，以達到減小方差（bagging）、偏差（boosting）或改進**（stacking）的效果。

整合學習（ensemble learning）是一種機器學習框架，它會建立多個基模型，每個基模型被訓練出來解決同乙個問題，然後通過整合這些基模型的**結果來提公升整體表現。

現在有兩個問題：

（1）訓練什麼樣的基模型，如何訓練

（2）用什麼方式組合不同型別的基模型，以獲得準確且穩健的模型？

根據解決上述兩問題的思路，整合學習分為三類：

（1）bagging（bootstrap aggregating，裝袋）：bagging即套袋法，先說一下bootstrap，bootstrap也稱為自助法，它是一種有放回的抽樣方法，目的為了得到統計量的分布以及置信區間，選擇相同的強學習器作為基模型，每個基模型的訓練資料不是全部訓練資料，而是通過對全部資料有放回取樣產生的隨機子集，**時各個基模型等權重投票。屬於一種並行的訓練結構。

（2）boosting：選擇相同的弱分類器作為基模型，依次訓練基模型，每個基模型的訓練集根據前一次模型的**結果進行調整，重點關注被前面模型錯誤**的樣本，以逐步修正基模型的誤差。最終的**結果通過基模型的線性組合產生。是一種序列訓練結構。

（3）stacking：對不同型別模型的融合。對每個基模型進行訓練，並將**結果作為新的特徵，對新的特徵構成的訓練集進行一次訓練，最終的**結果由其產生。

針對上述問題，目前主流方法有三種：

1.boosting方法：包括adaboosting，提公升樹（代表是gbdt）, xgboost等

2.bagging方法：典型的是隨機森林

3.stacking演算法

bagging和stacking中的基本模型須為強模型（低偏差高方差），boosting中的基本模型為弱模型（低方差高偏差）。

整合學習綜述

整合學習方法綜述

機器學習綜述

稀疏學習綜述

整合學習綜述

整合學習方法綜述

機器學習綜述

稀疏學習綜述

相關推薦