隨機森林概念

隨機森林是由許多決策樹組成的模型。該模型不僅簡單地對樹木的**取平均值（我們可以稱其為「森林」），還使用了兩個關鍵概念，將其命名為random：

建造樹時隨機抽取訓練資料點

分割節點時考慮的特徵的隨機子集

隨機抽取訓練觀察結果

訓練時，隨機森林中的每棵樹都會從總數據點隨機選取訓練樣本學習。樣本是通過替換繪製的，稱為自舉，這意味著某些樣本將在一棵樹中多次使用。這個想法是通過在不同的樣本上訓練每棵樹，儘管每棵樹相對於特定的訓練資料集可能具有較高的方差，但總體而言，整個森林將具有較低的方差，同時不會以增加偏差為代價。

在測試時，通過平均每個決策樹的**來進行**。在不同的自舉資料子集上訓練每個學習者，然後平均**值的此過程稱為bagging，是自舉聚合的縮寫。

用於分割節點的特徵的隨機子集

隨機森林中的另乙個主要概念是，僅考慮所有特徵的子集來拆分每個決策樹中的每個節點。通常將其設定為sqrt（n_features）進行分類，這意味著，如果在每個樹中的每個節點上有16個要素，則僅考慮4個隨機要素來拆分該節點。

隨機森林組合了數百或數千個決策樹，在一組稍有不同的觀測值上訓練每個決策樹，並在考慮有限數量特徵的情況下拆分每棵樹中的節點。隨機森林的最終**是通過對每棵單獨的樹的**求平均而得出的。

要了解為什麼隨機森林比單一決策樹更好，請想象以下情形：您必須決定tesla的股價是否會**，並且可以與十幾位對公司一無所知的分析師接觸。每個分析師的偏見都很低，因為他們沒有任何假設，並且可以從新聞報道的資料集中學習。

這似乎是乙個理想的情況，但是問題是報告除了實際訊號之外還可能包含雜訊。因為分析人員的**完全基於資料（他們具有很高的靈活性），所以它們可能會被無關的資訊所左右。分析人員可能會從同一資料集中得出不同的**。而且，每位分析師的差異很大，如果給與不同的培訓報告集，他們將得出截然不同的**。

解決方案是不依靠任何個人，而是集中每一位分析師的選票。此外，就像在隨機森林中一樣，允許每個分析人員僅訪問報告的一部分，並希望通過取樣可以消除嘈雜資訊的影響。在現實生活中，我們依賴多個**，因此，決策樹不僅直觀，而且將它們組合在隨機森林中的想法也是如此。