如何理解隨機森林RF 隨機性的理解

1、rf

1.1 原理

提到隨機森林，就不得不提bagging，bagging可以簡單的理解為：

放回抽樣，

多數表決（分類）或簡單平均（回歸）,

基學習器之間屬於並列生成，不存在強依賴關係。

引入了隨機特徵選擇：

1、隨機選擇樣本（放回抽樣）；

隨機選擇特徵是指在樹的構建中，會從樣本集的特徵集合中隨機選擇部分特徵，然後再從這個子集中選擇最優的屬性用於劃分

2、隨機選擇特徵；

3、構建決策樹；

4、隨機森林投票（平均）。

rf通常對分類問題使用簡單投票法，回歸任務使用簡單平均法。

1.2 優缺點

隨機森林的優點較多，簡單總結：

1、在資料集上表現良好，相對於其他演算法有較大的優勢（訓練速度、**準確度）；

2、能夠處理很高維的資料，並且不用特徵選擇，而且在訓練完後，給出特徵的重要性；

3、容易做成並行化方法。

rf的缺點：在雜訊較大的分類或者回歸問題上回過擬合。

參考：

隨機性的控制

無論是平時的工作還是比賽，進行測試的時候一定要把隨機性控制住，使用seed everything的函式基本可以控制住常見的資料探勘過程中的隨機性了，如果涉及到tensorflow keras或pytorch，還需要針對器進行額外的隨機性控制。import os import random def s...

隨機森林（RF）與GBDT的異同

相同點好吧，其實相同點不太好說，如果非要說的話，那就是它們都是由多棵樹組成，最終結果由這多棵樹一起決定其實中間的細節還是不一樣 1 都是由多棵樹組成 2 最終的結果都是由多棵樹一起決定不同點 1 從整合學習來說，rf屬於的bagging 稍微有點改變，增加了列抽樣而gbdt屬於boostin...

生成有足夠隨機性的隨機數

大致思路是使用足夠的運算和網路傳輸產生隨機性 1 迴圈若干次，做一組運算因為即使同一臺計算機每次執行的時間也不會相同，求運算消耗的時間因此產生了初步的隨機性 2 重複步驟1 若干次將得到的值乘上乙個較大的數字如10000 作為運算的迴圈次數進一步放大隨機性 3 多次重複步驟2 得到一些隨...

如何理解隨機森林RF 隨機性的理解

隨機性的控制

隨機森林（RF）與GBDT的異同

生成有足夠隨機性的隨機數

相關推薦