from sklearn.ensemble import randomforestclassifier
rf_clf = randomforestclassifier(n_estimators=
500,random_state=
666,oob_score=
true
,n_jobs=-1
)rf_clf.fit(x,y)
rf_clf.oob_score_
結果:0.896
rf_clf2 = randomforestclassifier(n_estimators=
500,max_leaf_nodes=
16,random_state=
666,oob_score=
true
,n_jobs=-1
)# max_leaf_nodes=16 表示每個樹最多有16個葉子節點
rf_clf2.fit(x,y)
rf_clf2.oob_score_
結果:0.92
#%% 使用extra-trees
from sklearn.ensemble import extratreesclassifier
et_clf = extratreesclassifier(n_estimators=
500,bootstrap=
true
,oob_score=
true
,random_state=
666)
et_clf.fit(x,y)
et_clf.oob_score_
結果:0.892
整合學習還可以解決回歸問題,使用方法如下:
#%% 整合學習解決回歸問題
from sklearn.ensemble import baggingregressor
from sklearn.ensemble import randomforestregressor
from sklearn.ensemble import extratreesregressor
隨機森林和gbdt結合 隨機森林和GBDT的學習
前言 提到森林,就不得不聯想到樹,因為正是一棵棵的樹構成了龐大的森林,而在本篇文章中的 樹 指的就是decision tree 決策樹。隨機森林就是一棵棵決策樹的組合,也就是說隨機森林 boosting 決策樹,這樣就好理解多了吧,再來說說gbdt,gbdt全稱是gradient boosting ...
Bagging和隨機森林
又稱袋裝 bagging 或者自助聚集 boot strap aggregating 是一種根據均勻概率分布從資料集中重複取樣 有放回 的技術。每個自助取樣的樣本集都和原資料集一樣大。在又放回的抽樣中,如果抽樣的個數和原資料集的大小一致,則自助樣本di d i中會有63 63 的原訓練資料,因為每乙...
隨機森林和Adaboos
隨機森林 隨機森林是利用隨即的方式將許多決策樹結合成乙個森林,每個決策樹在分類的時候決定測試樣本的最終類別。在bagging策略的基礎上進行修改後的一種演算法 從樣本集中用bootstrap取樣選出n個樣本 從所有屬性中隨機選擇k個屬性,選擇出最佳分割屬性作為節點建立決策樹 重複以上兩步m次,即建立...