機器學習整合學習

一。概括

整合學習（ensemble learning），本身不是乙個單獨的機器學習演算法，而是通過構建並結合多個機器學習器來完成學習任務。可以用於分類問題整合、回歸問題整合、特徵選取整合、異常點檢測整合等等，可以說所有的機器學習領域都可以看到整合學習的身影。

整合學習思想：對於訓練集資料，通過訓練若干個個體學習器，再經過一定結合策略，最終形成乙個強學習器，以達到博採眾長。

可以分為同質整合和異質整合。

同質整合：只包含同種型別的個體學習器，比如都是決策樹個體學習器。

異質整合：包含不同型別的個體學習器。

目前，同質個體學習器應用最廣泛，一般常說的整合學習的方法都指的是同質個體學習器。同質個體學習器使用最多的模型是cart決策樹和神經網路。

同質個體學習器按照個體學習器之間是否存在依賴關係可以分為兩類：

（1）個體學習器之間存在強依賴關係、必須序列生成的序列化方法。代表演算法是boosting。

（2）個體學習器之間不存在強依賴關係、可同時生成的並行化方法。代表演算法是bagging和隨機森林。

二。boosting

boosting族演算法最著名的代表是adaboost

三。bagging

是並行式整合學習方法最著名的代表。基於自助取樣法（有放回的抽樣）。

基本流程：取樣出t個含m個訓練樣本的取樣集，然後基於每個取樣集訓練出乙個（弱）基學習器，再將這些基學習器進行結合，從而得到最終的強學習器。

自助取樣法：即對於給定包含m個樣本的資料集，我們先隨機取出乙個樣本放入取樣集中，再把該樣本放回初始資料集中，使得下次取樣時該樣本仍有可能被選中，這樣經過m次隨機取樣操作，就能得到含m個樣本的取樣集。這樣就防止了取樣出的每個子集都完全不同，那樣每個基學習器只用到了一小部分訓練資料。

通常，在對**結果進行結合時，bagging對分類任務使用簡單投票法；對回歸任務使用簡單平均法。

隨機森林

隨機森林（random forest，簡稱rf）是bagging的乙個擴充套件變體。隨機森林的基學習器都是決策樹，但在bagging的樣本隨機取樣的基礎上又引入了隨機屬性選擇。即隨機森林中基學習器的多樣性不僅來自樣本擾動，還來自屬性擾動，這就使得最終整合的泛化效能可通過個體學習器之間的差異度的增加而進一步提公升。

具體來說，傳統決策樹在選擇劃分屬性時是在當前結點的屬性集合（假設有d個屬性）中選擇乙個最優屬性；而在rf中，對基決策樹的每個結點，先從該結點的屬性集合中隨機選擇乙個包含k個屬性的子集，再從這個子集中選擇乙個最優屬性用於劃分。這裡引數k控制了隨機性的引入程度。通常推薦k = log2 d。

隨機森林的收斂性與bagging相似，隨機森林的起始效能往往相對較差，但隨著個體學習器樹木的增加，隨機森林通常會收斂到更低的泛化誤差。

四。bagging和boosting對比

bagging演算法是個很高效的整合學習演算法，訓練乙個bagging整合與直接使用基學習演算法訓練乙個學習器的複雜度同階。

與標準adaboost只適用於二分類任務不同，bagging演算法能不經修改地用於多分類、回歸等任務。

從偏差-方差分解角度看：

bagging主要關注降低方差，因此它在不剪枝決策樹、神經網路等易受樣本擾動的學習器上效用更為明顯。

boosting主要關注減小偏差。

機器學習 整合學習

機器學習 整合學習

機器學習 整合學習

機器學習（整合學習）

相關推薦

機器學習整合學習

機器學習整合學習

機器學習整合學習