如何理解隨機森林RF 隨機性的理解

2021-10-01 20:43:03 字數 564 閱讀 4838

1、rf

1.1 原理

提到隨機森林,就不得不提bagging,bagging可以簡單的理解為:

放回抽樣,

多數表決(分類)或簡單平均(回歸),

基學習器之間屬於並列生成,不存在強依賴關係。

引入了隨機特徵選擇:

1、隨機選擇樣本(放回抽樣);

隨機選擇特徵是指在樹的構建中,會從樣本集的特徵集合中隨機選擇部分特徵,然後再從這個子集中選擇最優的屬 性用於劃分

2、隨機選擇特徵;

3、構建決策樹;

4、隨機森林投票(平均)。

rf通常對分類問題使用簡單投票法,回歸任務使用簡單平均法。

1.2 優缺點

隨機森林的優點較多,簡單總結:

1、在資料集上表現良好,相對於其他演算法有較大的優勢(訓練速度、**準確度);

2、能夠處理很高維的資料,並且不用特徵選擇,而且在訓練完後,給出特徵的重要性

3、容易做成並行化方法。

rf的缺點:在雜訊較大的分類或者回歸問題上回過擬合。

參考:

隨機性的控制

無論是平時的工作還是比賽,進行測試的時候一定要把隨機性控制住,使用seed everything的函式基本可以控制住常見的資料探勘過程中的隨機性了,如果涉及到tensorflow keras或pytorch,還需要針對器進行額外的隨機性控制。import os import random def s...

隨機森林(RF)與GBDT的異同

相同點 好吧,其實相同點不太好說,如果非要說的話,那就是它們都是由多棵樹組成,最終結果由這多棵樹一起決定 其實中間的細節還是不一樣 1 都是由多棵樹組成 2 最終的結果都是由多棵樹一起決定 不同點 1 從整合學習來說,rf屬於的bagging 稍微有點改變,增加了列抽樣 而gbdt屬於boostin...

生成有足夠隨機性的隨機數

大致思路是使用足夠的運算和網路傳輸產生隨機性 1 迴圈若干次,做一組運算 因為即使同一臺計算機 每次執行的時間也不會相同,求運算消耗的時間 因此產生了初步的隨機性 2 重複步驟1 若干次 將得到的值乘上乙個較大的數字 如10000 作為運算的迴圈次數 進一步放大隨機性 3 多次重複步驟2 得到一些隨...