隨機森林演算法學習

2021-08-19 03:06:14 字數 1222 閱讀 7870

對於k個訓練集,我們訓練k個模型(這k個模型可以根據具體問題而定,比如決策樹,knn等)

對於分類問題:由投票表決產生分類結果;對於回歸問題:由k個模型**結果的均值作為最後**結果。(所有模型的重要性相同)

進行迭代的過程中,每一步迭代都是乙個弱分類器。我們需要用某種策略將其組合,作為最終模型。(例如adaboost給每個弱分類器乙個權值,將其線性組合最為最終分類器。誤差越小的弱分類器,權值越大)

樣本權重:bagging使用的是均勻取樣,每個樣本權重相等;boosting根據錯誤率調整樣本權重,錯誤率越大的樣本權重越大。

**函式:bagging所有的**函式的權重相等;boosting中誤差越小的**函式其權重越大。

平行計算:bagging各個**函式可以並行生成;boosting各個**函式必須按順序迭代生成。

若a為空集,即沒有特徵作為劃分依據,則t為單節點樹,並將d中例項數最大的類ck作為該結點的類標記,返回t

否則,計算a中各特徵對d的資訊增益(id3)/資訊增益比(c4.5),選擇資訊增益最大的特徵ag

若ag的資訊增益(比)小於閾值eps,則置t為單節點樹,並將d中例項數最大的類ck作為該結點的類標記,返回t

否則,依照特徵ag將d劃分為若干非空子集di,將di中例項數最大的類作為標記,構建子節點,由結點及其子節點構成樹t,返回t

對第i個子節點,以di為訓練集,以a-為特徵集,遞迴地呼叫1~5,得到子樹ti,返回ti

cart在生成子樹時,是選擇乙個特徵乙個取值作為切分點,生成兩個子樹

選擇特徵和切分點的依據是基尼指數,選擇基尼指數最小的特徵及切分點生成子樹

隨機性的引入,使得隨機森林不容易過擬合

隨機性的引入,使得隨機森林有很好的抗雜訊能力

能處理很高維度的資料,並且不用做特徵選擇

既能處理離散型資料,也能處理連續型資料,資料集無需規範化

訓練速度快,可以得到變數重要性排序

容易實現並行化

隨機森林模型還有許多不好解釋的地方,有點算個黑盒模型

對於n_tree個訓練集,我們分別訓練n_tree個決策樹模型

對於單個決策樹模型,假設訓練樣本特徵的個數為n,那麼每次**時根據資訊增益/資訊增益比/基尼指數選擇最好的特徵進行**

每棵樹都一直這樣**下去,直到該節點的所有訓練樣例都屬於同一類。在決策樹的**過程中不需要剪枝

將生成的多棵決策樹組成隨機森林。對於分類問題,按多棵樹分類器投票決定最終分類結果;對於回歸問題,由多棵樹**值的均值決定最終**結果

隨機森林演算法學習 RandomForest

大部分的內容參考自 對於k個訓練集,我們訓練k個模型 這k個模型可以根據具體問題而定,比如決策樹,knn等 對於分類問題 由投票表決產生分類結果 對於回歸問題 由k個模型 結果的均值作為最後 結果。所有模型的重要性相同 進行迭代的過程中,每一步迭代都是乙個弱分類器。我們需要用某種策略將其組合,作為最...

隨機森林演算法原理 機器學習演算法 隨機森林

隨機森林是一種通用的機器學習方法,能夠處理回歸和分類問題。它還負責資料降維 缺失值處理 離群值處理以及資料分析的其他步驟。它是一種整合學習方法,將一組一般的模型組合成乙個強大的模型 我們通過適用隨機的方式從資料中抽取樣本和特徵值,訓練多個不同的決策樹,形成森林。為了根據屬性對新物件進行分類,每個數都...

隨機森林演算法

random forest是加州大學伯克利分校的breiman leo和adele cutler於2001年發表的 中提到的新的機器學習演算法,可以用來做分類,聚類,回歸,和生存分析,這裡只簡單介紹該演算法在分類上的應用。random forest 隨機森林 演算法是通過訓練多個決策樹,生成模型,然...