隨機森林演算法學習

對於k個訓練集，我們訓練k個模型（這k個模型可以根據具體問題而定，比如決策樹，knn等）

對於分類問題：由投票表決產生分類結果；對於回歸問題：由k個模型**結果的均值作為最後**結果。（所有模型的重要性相同）

進行迭代的過程中，每一步迭代都是乙個弱分類器。我們需要用某種策略將其組合，作為最終模型。（例如adaboost給每個弱分類器乙個權值，將其線性組合最為最終分類器。誤差越小的弱分類器，權值越大）

樣本權重：bagging使用的是均勻取樣，每個樣本權重相等；boosting根據錯誤率調整樣本權重，錯誤率越大的樣本權重越大。

**函式：bagging所有的**函式的權重相等；boosting中誤差越小的**函式其權重越大。

平行計算：bagging各個**函式可以並行生成；boosting各個**函式必須按順序迭代生成。

若a為空集，即沒有特徵作為劃分依據，則t為單節點樹，並將d中例項數最大的類ck作為該結點的類標記，返回t

否則，計算a中各特徵對d的資訊增益(id3)/資訊增益比(c4.5)，選擇資訊增益最大的特徵ag

若ag的資訊增益（比）小於閾值eps，則置t為單節點樹，並將d中例項數最大的類ck作為該結點的類標記，返回t

否則，依照特徵ag將d劃分為若干非空子集di，將di中例項數最大的類作為標記，構建子節點，由結點及其子節點構成樹t，返回t

對第i個子節點，以di為訓練集，以a-為特徵集，遞迴地呼叫1~5，得到子樹ti，返回ti

cart在生成子樹時，是選擇乙個特徵乙個取值作為切分點，生成兩個子樹

選擇特徵和切分點的依據是基尼指數，選擇基尼指數最小的特徵及切分點生成子樹

隨機性的引入，使得隨機森林不容易過擬合

隨機性的引入，使得隨機森林有很好的抗雜訊能力

能處理很高維度的資料，並且不用做特徵選擇

既能處理離散型資料，也能處理連續型資料，資料集無需規範化

訓練速度快，可以得到變數重要性排序

容易實現並行化

隨機森林模型還有許多不好解釋的地方，有點算個黑盒模型

對於n_tree個訓練集，我們分別訓練n_tree個決策樹模型

對於單個決策樹模型，假設訓練樣本特徵的個數為n，那麼每次**時根據資訊增益/資訊增益比/基尼指數選擇最好的特徵進行**

每棵樹都一直這樣**下去，直到該節點的所有訓練樣例都屬於同一類。在決策樹的**過程中不需要剪枝

將生成的多棵決策樹組成隨機森林。對於分類問題，按多棵樹分類器投票決定最終分類結果；對於回歸問題，由多棵樹**值的均值決定最終**結果

隨機森林演算法學習 RandomForest

大部分的內容參考自對於k個訓練集，我們訓練k個模型這k個模型可以根據具體問題而定，比如決策樹，knn等對於分類問題由投票表決產生分類結果對於回歸問題由k個模型結果的均值作為最後結果。所有模型的重要性相同進行迭代的過程中，每一步迭代都是乙個弱分類器。我們需要用某種策略將其組合，作為最...

隨機森林演算法原理機器學習演算法隨機森林

隨機森林是一種通用的機器學習方法，能夠處理回歸和分類問題。它還負責資料降維缺失值處理離群值處理以及資料分析的其他步驟。它是一種整合學習方法，將一組一般的模型組合成乙個強大的模型我們通過適用隨機的方式從資料中抽取樣本和特徵值，訓練多個不同的決策樹，形成森林。為了根據屬性對新物件進行分類，每個數都...

隨機森林演算法

random forest是加州大學伯克利分校的breiman leo和adele cutler於2001年發表的中提到的新的機器學習演算法，可以用來做分類，聚類，回歸，和生存分析，這裡只簡單介紹該演算法在分類上的應用。random forest 隨機森林演算法是通過訓練多個決策樹，生成模型，然...

隨機森林演算法學習

隨機森林演算法學習 RandomForest

隨機森林演算法原理 機器學習演算法 隨機森林

隨機森林演算法

相關推薦

隨機森林演算法原理機器學習演算法隨機森林