day3 整合演算法與隨機森林

2021-09-24 22:12:41 字數 1558 閱讀 3363

目的是讓最終的結果越好

bagging

訓練多個分類器然後取平均(並行的訓練平行的分類器,比如隨機森林)

f (x

)=1m

∑m=1

mfm(

x)

f(x)=\frac\sum_^f_m(x)

f(x)=m

1​∑m

=1m​

fm​(

x)

booting

從弱學習器開始強化,通過加權來進行訓練

f m(

x)=f

m−1+

argm

inh∑

i=1n

l(yi

,fm−

1(xi

)+h(

xi))

f_m(x)=f_+argmin_h\sum_l(y_i,f_(x_i)+h_)

fm​(x)

=fm−

1​+a

rgmi

nh​∑

i=1​

nl(y

i​,f

m−1​

(xi​

)+h(

xi​)

​)

stacking

聚合多個分類或回歸模型(可以分階段做)

bagging

可以用乙個資料集,每棵樹隨機各取60%的資料來進行分別訓練

讓每棵樹都有它的差異性

一般會選擇,100棵樹左右。

它能夠處理高維度(feature很多)的資料,並不用特徵選擇

在訓練完後,它能夠給出哪些feature比較重要

比如abcd四個特徵,破壞掉b 產生乙個b』 使用abcd ab』cd分別訓練。比較結果

容易做成並行化方法,速度比較快

可以進行視覺化展示,便於分析

boosting

序列學習,樹相加

f m(

x)=f

m−1+

argm

inh∑

i=1n

l(yi

,fm−

1(xi

)+h(

xi))

f_m(x)=f_+argmin_h\sum_l(y_i,f_(x_i)+h_)

fm​(x)

=fm−

1​+a

rgmi

nh​∑

i=1​

nl(y

i​,f

m−1​

(xi​

)+h(

xi​)

​)先算a樹 然後b樹計算a與實際值得殘差 與結果更近一步,再經過c

典型代表

adaboost xgboost

adaboost 根據前一次的分類效果調整資料權重,分類器權重越大,越好

stacking

使用一堆直接上得出結果後,再訓練乙個分類器

整合演算法 隨機森林

這一節,我們來聊聊隨機森林演算法,雖然我對這些演算法的理解也不是很深,但還是決定寫一寫。首先,整合演算法是指多種演算法的集合,因為單一的演算法在處理某種問題時,可能會有所限制,整合演算法會綜合多種演算法的結果,得到乙個均值,效果往往會比單一演算法好一些。前面我們討論過決策樹,那隨機森林就不難理解,它...

整合演算法(隨機森林) 知識整理

boosting模型 stacking模型 小結該方法不太適合,使用這種方法很難去隨機讓模型的泛化能力變強。具體介紹之後補充 該模型典型代表有adaboost,xgboost後者在以後哦的資料分析中具體說明。adaboost會根據前一次的分類效果調整資料的權重 最終結果 每個分類器根據自身的準確性來...

整合學習3 隨機森林(RF)與 bagging

隨機森林大家都不會陌生,相對於xgb來講,方法很簡單,沒有那麼多複雜的公式,其主要是一種思想 bagging,關於抽樣 統計的。隨機森林也是決策樹家族的一員,了解隨機森林也得從決策樹開始,感興趣的可以參考這篇文章 決策樹 id3 c4.5 cart演算法 以及 整合學習1 xgboost 為什麼要出...