整合學習概述

整合學習是指通過訓練多個分類器，然後將這些分類器組合起來，來獲得比單個分類器更優的效能（比最好的那個分類器還要好）。如果每個分類器都是同種型別的（比如都是決策樹或者都是svm等等），那麼這些單個的分類器我們稱為基學習器；如果整合中包含不同型別的分類器，這樣的整合是異質的。需要注意的是，這些單個的分類器效能不一定要很好，只需要比隨機猜測好就可以。在我們一般的經驗中，如果把好的東西與壞的東西摻雜在一起，那麼結果通常是比最壞的要好但比最好的要差一些。那麼，為什麼整合學習可以獲得比最好的單一學習器更好的效能呢？這要從人們對乙個問題的爭論談起，即，強可學習與弱可學習是否等價。

強可學習（(strong pac learnability）：乙個概念c在假設空間h下是強可學習的，是指存在乙個演算法a，對∀c

ϵc、輸入空間上的任意分布d以及∀ε

ϵ(0,

12)和

∀δϵ(

0,12

)，從資料集d中給定多項式個（與1ε

,1δ）獨立同分布的樣本，存在乙個假設hϵ

h，使得： p(

err(

h)≤ε

)≥1−

δ弱可學習（weak pac learnability）乙個概念c在假設空間h下是弱可學習的，是指存在乙個演算法a和乙個

γ>0，對

∀cϵc

、輸入空間上的任意分布d以及∀δ

ϵ(0,

12)，從資料集d中給定多項式個（與1δ

同階）獨立同分布的樣本，存在乙個假設hϵ

h，使得： p(

err(

h)≤1

2−γ)

≥1−δ

也就是說，乙個概念強可學習，那麼其錯誤幾乎可以很小；而乙個弱可學習的概念，則只是比隨機猜測好一點。

rob schapire證明了強可學習與弱可學習是等價的，於是在學習中如果存在弱學習演算法，我們就可以通過組合多個弱學習演算法來得到強學習演算法。

如何選擇學習器？

每個學習器應盡可能不相關，同時分類錯誤率小於0.5。分類器要有足夠的多樣性（diversity）。如何獲得這些不相關的學習器呢？一種方法是，對訓練資料集取樣，這樣取樣出的子集有差異，訓練出來的學習器也就有較大的差異；另一種方法是，先訓練乙個分類器，然後根據這個分類器的表現改變訓練資料的分布，使得被分類錯誤的樣本有更大的權重。這樣，整合學習方法可以分成兩類，一類是bagging/隨機森林，一類是提公升演算法（boosting）。

決策樹是乙個常用的機器學習演算法。它採用了分而治之的策略，也就是對乙個分類問題，每次從學習得到的特徵集中選取乙個特徵把輸入資料分成兩類。訓練也就是生成決策樹的時候，最關鍵的就是選擇每個節點的劃分標準。按照節點劃分標準的不同，決策樹可以分成三類：id3、c4.5、cart。

id3演算法每次選擇乙個特徵，使得樣本集的資訊量減少最大。這樣，熵減少得最快，有望獲得一棵深度最淺的樹。具體是：已知訓練樣本集d(假設有c類)，我們可以根據這個樣本集中每一類出現的概率，算出樣本集d包含的資訊量。然後，從特徵集x中選擇乙個特徵x，則我們可以計算已知x的情況下各類的條件概率，然後計算出已知x的情況下d包含的資訊量。也就是說，我們要選擇乙個x使得x與d相互包含的資訊量最大: ar

gmax

xϵxi

(x,d

)c4.5演算法不直接用資訊增益，而是使用資訊增益率來選擇最優劃分。

cart使用基尼指數來選擇劃分。基尼指數反映的是從資料集d中隨機抽取兩個樣本，其類別標記不一致的概率。因此基尼指數越少，資料集d包含的資訊量越少。cart在候選特徵集中選取乙個特徵，使得劃分後基尼指數最小。

決策樹防止過擬合的方法分別是：

實際經驗表明，決策樹劃分標準的選擇，如資訊增益、資訊增益率、基尼指數雖然對決策樹的深度有較大影響，但對泛化效能影響有限。而剪枝對決策樹泛化效能的影響是相當顯著的。

如前所述，訓練每個分類器的時候，每次從訓練資料集中取樣，用樣本集訓練基分類器。bagging是一種有放回的取樣。也就是訓練的時候使用了相互有交疊的子集。

adaboost演算法

輸入：訓練集d=;基學習演算法

ε;訓練輪數t

過程： 1、d

1(x)

=1m

2、for t=1,2,3,…,t,do ht

=ε(d

,dt)

εt=px∼d

t(ht

(x)≠

f(x)

) if ε

t>

0.5,then break αt

=12l

n1−ε

tεt

dt+1

(x)=

dt(x

)zt×

{exp

(−αt

),if

ht(x

)=f(

x)ex

p(αt

),if

ht(x

)≠f(

x)end for

輸出：h(x

)=si

gn(σ

tt=1

αtht

(x))

整合學習概述

整合學習概述

機器學習常見演算法概述整合學習總結

機器學習筆記（七）整合學習概述

整合學習概述

整合學習概述

機器學習常見演算法概述 整合學習總結

機器學習筆記（七） 整合學習概述

相關推薦

機器學習常見演算法概述整合學習總結

機器學習筆記（七）整合學習概述