學習筆記隨機森林

準確地說，隨機森林的工作原理如下：

從資料集（表）中隨機選擇k個特徵（列），共m個特徵（其中k小於等於m）。然後根據這k個特徵建立決策樹。

重複n次，這k個特性經過不同隨機組合建立起來n棵決策樹（或者是資料的不同隨機樣本，稱為自助法樣本）。

對每個決策樹都傳遞隨機變數來**結果。儲存所有**的結果（目標），你就可以從n棵決策樹中得到n種結果。

計算每個**目標的得票數再選擇模式（最常見的目標變數）。換句話說，將得到高票數的**目標作為隨機森林演算法的最終**。

針對回歸問題，隨機森林中的決策樹會**y的值（輸出值）。通過隨機森林中所有決策樹**值的平均值計算得出最終**值。而針對分類問題，隨機森林中的每棵決策樹會**最新資料屬於哪個分類。最終，哪一分類被選擇最多，就**這個最新資料屬於哪一分類。

例子：詹姆斯要決定在巴黎的一周要去哪些景點。他拜訪了一位曾在巴黎住過一年的朋友，問朋友曾去過哪些景點，是否覺得有趣。基於自己的經驗，這位朋友會給詹姆斯一些建議。這是典型的決策樹演算法方法。詹姆斯的朋友根據自己的經驗，告訴詹姆斯可以去哪些景點遊覽。之後，詹姆斯問了很多在巴黎待過的朋友，詢問建議，他們推薦了自己去過的景點。然後詹姆斯選擇了被推薦次數最多的景點，這就是典型的隨機森林演算法。因此，隨機森林是一種在共擁有m個特徵的決策樹中隨機選擇k個特徵組成n棵決策樹，再選擇**結果模式（如果是回歸問題，選擇平均值）。

優缺點

優點：

1.可以用來解決分類和回歸問題：隨機森林可以同時處理分類和數值特徵。

2. 抗過擬合能力：通過平均決策樹，降低過擬合的風險性。

3. 只有在半數以上的基分類器出現差錯時才會做出錯誤的**：隨機森林非常穩定，即使資料集**現了乙個新的資料點，整個演算法也不會受到過多影響，它只會影響到一顆決策樹，很難對所有決策樹產生影響。

缺點：

1.據觀測，如果一些分類/回歸問題的訓練資料中存在噪音，隨機森林中的資料集會出現過擬合的現象。. 比決策樹演算法更複雜，計算成本更高。

2.由於其本身的複雜性，它們比其他類似的演算法需要更多的時間來訓練。

參考

學習筆記隨機森林

機器學習筆記隨機森林

隨機森林筆記

GEE學習筆記5 隨機森林

學習筆記 隨機森林

機器學習筆記 隨機森林

隨機森林筆記

GEE學習筆記5 隨機森林

相關推薦

學習筆記隨機森林

機器學習筆記隨機森林