隨機森林演算法原理機器學習演算法隨機森林

隨機森林是一種通用的機器學習方法，能夠處理回歸和分類問題。它還負責資料降維、缺失值處理、離群值處理以及資料分析的其他步驟。它是一種整合學習方法，將一組一般的模型組合成乙個強大的模型

我們通過適用隨機的方式從資料中抽取樣本和特徵值，訓練多個不同的決策樹，形成森林。為了根據屬性對新物件進行分類，每個數都給出自己的分類意見，稱為「投票」。在分類問題下，森林選擇票數最多的分類；在回歸問題下則適用平均值的方法。

隨機森林是基於bagging方法的整合模型，bagging的示例如下：

若每個分類模型都是決策樹，那就構成了隨機森林。bagging方法通過抽樣的方式獲得多份不同的訓練樣本，在不同的訓練楊版本上訓練決策樹，從而降低了決策樹之間的相關性。同時還通過特徵的隨機選取，特徵閾值的隨機選取兩種方式產生隨機性，進一步降低決策樹之間的相關性。

優點：

隨機森林輸入替換後資料樣本稱為自助抽樣。其中三分之一的資料不用於訓練但是可用來**，被稱為袋外樣本。在這些袋外樣本上估計的誤差成為袋外誤差。

缺點:隨機森林優缺點參考：

一文看懂隨機森林 - random forest（4個實現步驟+10個優缺點）easyai.tech

隨機森林演算法原理 機器學習演算法 隨機森林