R語言 隨機森林mtry,ntree優化

2021-10-04 17:10:42 字數 827 閱讀 6184

隨機森林引數:

1、 mtry節點值,可確定每次迭代的變數抽樣數值,用於二叉樹的變數個數

(1)一般可預設為2。

(2)改為資料集變數個數的二次方根(分類模型)或三分之一(回歸模型)。

(3)實際可以for迴圈找到最佳

2、ntree指定隨機森林所包含的決策樹數目,預設為500;最好在確定mtry之後,帶入嘗試,取使模型內誤差基本穩定的最小值。

參考:

library(randomforest)

library(ggplot2)

library("caret")

#獲取當前工作路徑

#getwd()

#設定工作路徑

#setwd('d:')

data.all

#轉換y,分類問題

data.all$y

set.seed(9)

#七三分樣本

ind = sample(2,nrow(data.all),replace = true,prob = c(0.7,0.3))

train = data.all[ind == 1,]

test = data.all[ind == 2,]

#尋找最優mtry

R語言 隨機森林演算法

在隨機森林方法中,建立大量的決策樹。每個觀察被饋入每個決策樹。每個觀察的最常見的結果被用作最終輸出。新的觀察結果被饋入所有的樹並且對每個分類模型取多數投票。對構建樹時未使用的情況進行錯誤估計。這稱為oob 袋外 誤差估計,其被提及為百分比。r語言包 randomforest 用於建立隨機森林。安裝r...

隨機森林(R)

random forest install.packages randomforest library randomforest data iris attach iris table iris species class as.factor iris species 描述 biplot princ...

R語言 訓練隨機森林模型

隨機森林演算法涉及對樣本單元和變數進行抽樣,從而生成大量決策樹。對於每個樣本單元,所有決策樹依次對其進行分類,所有決策樹 類別中的眾數類別即為隨機森林所 的這一樣本單元的類別。假設訓練集中共有n個樣本單元,m個變數,則隨機森林演算法如下 1 從訓練集中隨機有放回地抽取n個樣本單元,生成大量決策樹 2...