機器學習（整合學習）

原創 2023年08月19日 15:56:13

「同質」：由型別相同的學習器組合而成的整合學習器，每個學習器可稱為基學習器

「異質」：由型別不相同的學習器組合而成的整合學習器，每個學習器可稱為「元件學習器」

整合學習通過將多個學習器進行結合，常常可以獲得比單一學習器具有顯著優越的泛化效能。這個對於弱學習器尤為明顯。

如何獲得乙個好的整合學習器呢？每個個體學習器具有一定的準確性（每個學習器不能太壞）和多樣性（每個學習器之間存在差異）

整合學習方法可以分為兩大類：一是個體學習器間存在強依賴關係、必須序列生成序列化方法，代表有boosting演算法，二是個體學習器之間不存在強依賴關係、可同時生成的並行化方法，代表有bagging和隨機森林（random forest）

t，最終將這t

t個基學習器進行加權結合。這種演算法最具有代表的是adaboost演算法。

adaboost演算法可以理解是基於「加性模型」，即基學習器的線性組合。 h

(x)=

∑t=1

tαth

t(x)

h(x)=∑t=1tαtht(x)

參閱：（1）、bagging演算法

bagging演算法基本流程：採用自助取樣法，可以採用出t

t個含m

m個訓練樣本的取樣集，然後基於每個取樣集訓練出乙個基學習器，再將這些基學習器進行結合。

（2）、隨機森林（random forest）

隨機森林是bagging的乙個擴充套件變體，隨機森林是在以決策樹為基學習器構建bagging整合的基礎上，進一步在決策樹的訓練過程中引入了隨機屬性選擇。具體的說，傳統決策樹在選擇劃分屬性時是在當前結點的屬性集合（假定有d

d個屬性）中選擇乙個最優屬性；而在隨機森林（rf）中，對基決策樹的每個結點，先從該結點的屬性集合中隨機選擇乙個包含k

k個屬性的子集，然後再從這個子集中選擇乙個最優屬性用於劃分。

可以參閱：

整合演算法，介紹完後，那麼如何使結合後的整合演算法明顯的優勢呢？也就是說如何將訓練出來的多個基學習器如何很好的結合在一起呢形成新的整合演算法呢？本書提出平均法、投票法、學習法三種結合策略。

多樣性，在前面已經提到過，乙個好整合演算法，需要訓練出來的基學習器具有很強的多樣性。

（1）誤差-分歧分解

（2）多樣性度量

（3）多樣性增強

在整合學習中需要有效地生成多樣性大的個體學習器。如果增強多樣性呢？一般思路是在學習過程中引入隨機性，常見的做法是對資料樣本、輸入屬性、輸出表示、演算法引數進行擾動。