隨機森林演算法簡介

2021-10-06 07:27:40 字數 983 閱讀 5113

隨機森林(random forest)實際上是一種改進的bagging方法,它將cart樹用作bagging中的模型。

普通決策樹在節點上所有的樣本特徵中選擇乙個最優的特徵來作為左右子樹的劃分,

隨機森林(rf)通過隨機選擇節點上的一部分特徵,然後再這些隨機算則的樣本特徵中,選擇乙個最優的特徵作為左右子樹的劃分,從而增強了泛化能力。相當於對於樣本和特徵都進行了取樣。

隨機森林演算法流程:

輸入:樣本集d=,弱分類器迭代次數t。

輸出:最終的強分類器f(x)

過程:1)對於t=1,2…,t:

a)對訓練集進行第t次隨機取樣,共採集m次,得到包含m個樣本的取樣集dt

b)用取樣集dt訓練第t個決策樹模型gt(x),在訓練決策樹模型的節點的時候, 在節點上所有的樣本特徵中選擇一部分樣本特徵, 在這些隨機選擇的部分樣本特徵中選擇乙個最優的特徵來做決策樹的左右子樹劃分

2)如果是分類演算法**,則t個弱學習器投票得出類別或者類別之一為最終類別。如果是回歸演算法,t個弱學習器得到的回歸結果進行算術平均得到的值為最終的模型輸出。

投票法有:絕對多數投票法,相對多數投票法,加權投票法等。

rf的主要優點有:

1) 訓練可以高度並行化,對於大資料時代的大樣本訓練速度有優勢。

2)由於可以隨機選擇決策樹節點劃分特徵,這樣在樣本特徵維度很高的時候,仍然能高效的訓練模型。

3)在訓練後,可以給出各個特徵對於輸出的重要性

4)由於採用了隨機取樣,訓練出的模型的方差小,泛化能力強。

5)相對於adaboost和gbdt,實現比較簡單。

6)對部分特徵缺失不敏感。

rf的主要缺點有:

1)在某些噪音比較大的樣本集上,rf模型容易陷入過擬合。

2)取值劃分比較多的特徵容易對rf的決策產生更大的影響,從而影響擬合的模型的效果。

ref:

隨機森林演算法

random forest是加州大學伯克利分校的breiman leo和adele cutler於2001年發表的 中提到的新的機器學習演算法,可以用來做分類,聚類,回歸,和生存分析,這裡只簡單介紹該演算法在分類上的應用。random forest 隨機森林 演算法是通過訓練多個決策樹,生成模型,然...

隨機森林演算法原理 機器學習演算法 隨機森林

隨機森林是一種通用的機器學習方法,能夠處理回歸和分類問題。它還負責資料降維 缺失值處理 離群值處理以及資料分析的其他步驟。它是一種整合學習方法,將一組一般的模型組合成乙個強大的模型 我們通過適用隨機的方式從資料中抽取樣本和特徵值,訓練多個不同的決策樹,形成森林。為了根據屬性對新物件進行分類,每個數都...

IBM SPSS Modeler隨機森林演算法介紹

在之前的文章 bagging 或boosting讓你的模型更加優化 中,我們介紹了可以通過bagging或boosting技術,使得模型更加穩定和準確率更高,那麼今天要介紹的隨機森林演算法,本身的演算法邏輯已經使用了bagging技術,來構建多棵樹,最終實現構建 森林 的目的。首先我們先來了解下這個...