機器學習筆記之十整合學習之Bagging

上一節學習了決策樹：

最後說到提公升決策樹的效能，整合就是非常強大的解決方案。

借助乙個圖，直觀的了解整合學習：

bagging是整合個體學習器的一種方式，它的思想十分簡單：

a.對原始樣本進行有放回取樣，得到乙個樣本子集，用這個樣本子集去訓練，得到乙個學習器。

b.重複以上步驟，得到n個樣本子集，訓練出n個學習器。

c.**目標樣本時，用這n個學習器進行投票法（分類問題中）、平均值法（回歸問題中）等方法。

隨機森林時bagging方法的典型代表，同時也是決策樹的提公升優化。

隨機森林的過程：（1）、從總樣本中有放回的隨機取樣，得到m組樣本子集。

（2）、在m組樣本子集中，各自分別隨機選擇k個特徵值作為本子集的訓練特徵，訓練出m個決策樹。

（3）、predict——以m個弱分類器**的結果投票或者取平均值。

以上即是隨機森林的思想，sklearn的實現中，需要調整的引數一般是決策樹的數目（50~100），特徵數量k，結果的**的方法以及決策樹中的一些引數。

extra tree 是隨機森林的乙個變種，不常用。但是在隨機森林都過擬合的情況下，可以嘗試這個演算法。

extra tree和隨機森林的主要區別如下：

（1）、rf用於訓練的樣本子集是隨機取樣的，而extra tree每次都直接使用原始樣本。

（2）、rf特徵選擇使用的是最優選擇（即使用資訊增益、基尼係數等選擇），而extra tree則是使用隨機選擇的方式。因為是隨機選擇，所以一般extra tree生成的決策森林一般比較大，方差較小，泛化能力強。

trte不是分類回歸演算法，而是一種非監督的資料轉化方式，可以將低維的資料對映到高維，從而讓高維的資料更好得用於分類回歸模型。。

一種異常點檢測演算法。

機器學習筆記（七）整合學習概述

整合學習 ensemble learning 是通過組合多個基分類器 baseclassifier 來完成學習任務。基分類器一般採用的是弱可學習分類器，通過整合學習，組合成乙個強可學習分類器。整合學習主要分為兩類一是個體學習器間存在強大依賴關係必須序列生成的序列化方法，代表演算法 boostin...

機器學習筆記14 整合 B B

整合 b b bagging 和 boosting 是提高監督式學習方案準確性的兩種常見整合方法。收集一堆簡單規則，並且這些規則都有點意義能提供一些幫助。但是，單靠某乙個規則無法得到最好的答案，合併成乙個效果不錯的複雜規則。先通過某個資料子集進行學習，形成某個規則然後通過另一資料子集進行學習，再...

機器學習之整合學習

整合學習 ensemble learning 通過構建並結合多個弱學習器來完成學習任務。一般來說整合學習可以分為三大類 bagging又叫做自舉匯聚法，思想是常見的推廣演算法有 extra tree是隨機森林的變種，原理和隨機森林一樣，區別如下主要用於異常點檢測在隨機取樣的過程中，一般只需要少...

機器學習筆記之十 整合學習之Bagging

機器學習筆記（七） 整合學習概述

機器學習筆記14 整合 B B

機器學習之整合學習

相關推薦

機器學習筆記之十整合學習之Bagging

機器學習筆記（七）整合學習概述