隨機森林r語言實現（超詳細）

演算法介紹：

簡單的說，隨機森林就是用隨機的方式建立乙個森林，森林裡面有很多的決策樹，並且每棵樹之間是沒有關聯的。得到乙個森林後，當有乙個新的樣本輸入，森林中的每一棵決策樹會分別進行一下判斷，進行類別歸類（針對分類演算法），最後比較一下被判定哪一類最多，就**該樣本為哪一類。

隨機森林演算法有兩個主要環節：決策樹的生長和投票過程。

決策樹生長步驟：

從容量為n的原始訓練樣本資料中採取放回抽樣方式(即bootstrap取樣)隨機抽取自助樣本集，重複k（樹的數目為k）次形成乙個新的訓練集n，以此生成一棵分類樹；

每個自助樣本集生長為單棵分類樹，該自助樣本集是單棵分類樹的全部訓練資料。設有m個輸入特徵，則在樹的每個節點處從m個特徵中隨機挑選m(m < m)個特徵，按照節點不純度最小的原則從這m個特徵中選出乙個特徵進行分枝生長，然後再分別遞迴呼叫上述過程構造各個分枝，直到這棵樹能準確地分類訓練集或所有屬性都已被使用過。在整個森林的生長過程中m將保持恆定；

分類樹為了達到低偏差和高差異而要充分生長，使每個節點的不純度達到最小，不進行通常的剪枝操作。

投票過程：

隨機森林採用bagging方法生成多個決策樹分類器。

基本思想：

給定乙個弱學習演算法和乙個訓練集，單個弱學習演算法準確率不高，可以視為乙個窄領域專家；

將該學習演算法使用多次，得出**函式序列，進行投票，將多個窄領域專家評估結果彙總，最後結果準確率將大幅提公升。

隨機森林的優點：

缺點

尋找最優引數mtry，即指定節點中用於二叉樹的最佳變數個數

library("randomforest")
n<-length(names(train_data)) #計算資料集中自變數個數，等同n=ncol(train_data)
rate=1 #設定模型誤判率向量初始值
for(i in 1:(n-1))
rate #展示所有模型誤判率的均值
plot(rate)

尋找最佳引數ntree，即指定隨機森林所包含的最佳決策樹數目

set.seed(100)
rf_train<-randomforest(as.factor(train_data$is_liushi)~.,data=train_data,mtry=12,ntree=1000)
plot(rf_train) #繪製模型誤差與決策樹數量關係圖 
legend(800,0.02,"is_liushi=0",cex=0.9,bty="n") 
legend(800,0.0245,"total",cex=0.09,bty="n")

隨機森林模型搭建

set.seed(100)
rf_train<-randomforest(as.factor(train_data$is_liushi)~.,data=train_data,mtry=12,ntree=400,importance=true,proximity=true)

輸出變數重要性:分別從精確度遞減和均方誤差遞減的角度來衡量重要程度。

importance<-importance(rf_train) 
write.csv(importance,file="e:/模型搭建/importance.csv",row.names=t,quote=f)
barplot(rf_train$importance[,1],main="輸入變數重要性測度指標柱形圖")
box()

提取隨機森林模型中以準確率遞減方法得到維度重要性值。type=2為基尼係數方法

importance(rf_train,type=1)

varimpplot(x=rf_train,sort=true,n.var=nrow(rf_train$importance),main="輸入變數重要性測度散點圖")

資訊展示

print(rf_train)    #展示隨機森林模型簡要資訊
hist(treesize(rf_train)) #展示隨機森林模型中每棵決策樹的節點數
max(treesize(rf_train));min(treesize(rf_train))
mdsplot(rf_train,train_data$is_off_user,palette=rep(1,2),pch=as.numeric(train_data$is_liushi)) #展示資料集在二維情況下各類別的具體分布情況

檢測

pred<-predict(rf_train,newdata=test_data)  
pred_out_1<-predict(object=rf_train,newdata=test_data,type="prob") #輸出概率
table <- table(pred,test_data$is_liushi) 
sum(diag(table))/sum(table) #**準確率
plot(margin(rf_train,test_data$is_liushi),main=觀測值被判斷正確的概率圖)

randomforest包可以實現隨機森林演算法的應用，主要涉及5個重要函式，語法和引數請見下

1:randomforest()函式用於構建隨機森林模型

randomforest(formula, data=null, ..., subset, na.action=na.fail)
randomforest(x, y=null, xtest=null, ytest=null, ntree=500,
mtry=if (!is.null(y) && !is.factor(y))
max(floor(ncol(x)/3), 1) else floor(sqrt(ncol(x))),
replace=true, classwt=null, cutoff, strata,
sampsize = if (replace) nrow(x) else ceiling(.632*nrow(x)),
nodesize = if (!is.null(y) && !is.factor(y)) 5 else 1,
maxnodes = null,
importance=false, localimp=false, nperm=1,
proximity, oob.prox=proximity,
norm.votes=true, do.trace=false,
keep.forest=!is.null(y) && is.null(xtest), corr.bias=false,
keep.inbag=false, ...)

2:importance()函式用於計算模型變數的重要性

importance(x, type=null, class="null", scale=true, ...)

3:mdsplot()函式用於實現隨機森林的視覺化

mdsplot(rf, fac, k=2, palette=null, pch=20, ...)

4:rfimpute()函式可為存在缺失值的資料集進行插補（隨機森林法），得到最優的樣本擬合值

rfimpute(x, y, iter=5, ntree=300, ...)
rfimpute(x, data, ..., subset)

5:treesize()函式用於計算隨機森林中每棵樹的節點個數

treesize(x, terminal=true)

隨機森林r語言實現（超詳細）

R語言隨機森林演算法

R語言訓練隨機森林模型

R語言隨機森林mtry,ntree優化

隨機森林r語言實現（超詳細）

R語言 隨機森林演算法

R語言 訓練隨機森林模型

R語言 隨機森林mtry,ntree優化

相關推薦

R語言隨機森林演算法

R語言訓練隨機森林模型

R語言隨機森林mtry,ntree優化