整合學習與隨機森林理解

什麼是整合學習？

整合學習本身不是乙個單獨的機器學習演算法，而是通過構建並結合多個機器學習器來完成學習任務。也就是我們常說的「博採眾長」。

voting模型

對多個模型訓練某乙個資料集的結果進行投票，少數服從多數的原則，得到最優結果。

voting模型的引數voting引數有兩種，預設是hard，直接投票判斷，而soft是一定的權重比例投票，更準確一些。

缺點：模型數量十分有限

bagging模型

使用更多個子模型對資料集進行取樣學習，使用多個弱學習器實現強學習器的效果。

取樣分為放回取樣和不放回取樣，放回取樣是指在構建乙個子模型的過程中，樣本被抽取後立刻放回。

包外資料：放回取樣可能導致一部分樣本未被取到，這些資料就是包外資料。

bagging模型極其容易並行化。

當弱學習器是決策樹時，bagging模型就是隨機森林。

隨機森林

建立多個決策樹並將他們融合起來得到乙個更加準確和穩定的模型，是bagging 思想和隨機選擇特徵的結合。隨機森林構造了多個決策樹，當需要對某個樣本進行**時，統計森林中的每棵樹對該樣本的**結果，然後通過投票法從這些**結果中選出最後的結果。

隨機體現在兩個方面，乙個是隨機取特徵，另乙個是隨機取樣本，讓森林中的每棵樹既有相似性又有差異性。

隨機森林的引數：

n_estimators：森林中樹木的數量，即基評估器(學習器)的數量

criterion ：不純度的衡量指標，有基尼係數和資訊熵兩種選擇

max_depth ：樹的最大深度，超過最大深度的樹枝都會被剪掉

min_samples_leaf：乙個節點在分枝後的每個子節點都必須包含至少min_samples_leaf個訓練樣本，否則分枝就不會發生

min_samples_split：乙個節點必須要包含至少min_samples_split個訓練樣本，這個節點才允許被分枝，否則分枝就不會發生

max_features：max_features限制分枝時考慮的特徵個數，超過限制個數的特徵都會被捨棄，預設值為總特徵個數開平方取整

模型的複雜度與泛化誤差的關係

泛化誤差：來衡量模型在未知資料上的準確率的指標，叫做泛化誤差

當模型在未知資料（測試集）上表現糟糕時，我們說模型的泛化程度不夠，泛化誤差大，模型的效果不好。泛化誤差受到模型的結構（複雜度）影響。看下面這張圖，它準確地描繪了泛化誤差與模型複雜度的關係，當模型太復

雜，模型就會過擬合，泛化能力就不夠，所以泛化誤差大。當模型太簡單，模型就會欠擬合，擬合能力就不夠，所以誤差也會大。只有當模型的複雜度剛剛好的才能夠達到泛化誤差最小的目標，我們追求的就是位於中間的平衡

點。

對於隨機森林而言，樹的深度越深，枝葉越多，模型越複雜

極限隨機樹是比隨機森林更隨機的森林，它具有更快的訓練速度，能進一步增強模型的泛化能力。

整合學習隨機森林

隨機森林 random forest,簡稱rf 是bagging的乙個擴充套件變體。bagging在1996年由beriman提出，作為並行式整合學習方法中最著名的代表，利用自助取樣法。可取樣出t個含m個訓練樣本的取樣集，然後基於每個取樣集訓練出乙個基學習器，再將這些基學習器進行結合。這就是bagg...

整合學習隨機森林

bagging就是bootstrapaggregating，自舉匯聚法，亦稱為裝袋法。與boosting的不同個人理解由於bagging的每個分類器是同階的，則有 e d e 1n i 1ne di e di 偏差.v ar v ar 1 n i 1nva r di 1 nvar di 方差e...

整合學習隨機森林

用多個模型來解決乙個問題，就是整合怎麼樣得到乙個好的整合？需要個體盡可能的精確，而且它們的差異性，多樣性盡可能的大按整合中個體的生成方式來說，可以分為兩大方法一棵樹是決策樹，多棵樹是隨機森林，解決了決策樹泛化能力弱的缺點。因為決策樹是一棵樹，它是有乙個決策的可能性，如果是多棵樹，每棵樹都有乙個...

整合學習與隨機森林理解

整合學習 隨機森林

整合學習 隨機森林

整合學習 隨機森林

相關推薦

整合學習隨機森林

整合學習隨機森林

整合學習隨機森林