整合學習隨機森林

隨機森林（random forest,簡稱rf）是bagging的乙個擴充套件變體。bagging在2023年由beriman提出，作為並行式整合學習方法中最著名的代表，利用自助取樣法。可取樣出t個含m個訓練樣本的取樣集，然後基於每個取樣集訓練出乙個基學習器，再將這些基學習器進行結合。這就是bagging的基本路程。對分類任務使用簡單投票法，對回歸任務簡單平均。

rf在以決策樹為基學習器構建bagging整合的基礎上，進一步在決策樹的訓練過程中引入了隨機屬性選擇。傳統決策樹在選擇劃分屬性時是在當前節點的屬性集合中（假定有d個屬性）中選擇乙個最優屬性；而在rf中，對基決策樹的每個結點，先從該節點的屬性集合中隨機選擇乙個包含k個屬性的子集，然後再從這個子集中選擇乙個最優屬性用於劃分。這裡的引數k控制了隨機性的引入程度：若令k=d，則基決策樹的構建與傳統決策樹相同，一般情況下，推薦值

。隨機森林的優點：

隨機森林簡單、容易實現、計算開銷小，並且在很多的現實任務中展現出了強大的效能，被譽為「代表整合學習技術水平的方法」。

隨機森林對bagging方法的改進：

隨機森林增強了bagging方法中的基學習器的「多樣性」，基學習之間差異性變大使得最終整合的學習模型的泛化能力增強。隨機森林不僅通過樣本擾動（通過對初始訓練集取樣）而來不同，還通過屬性擾動，使得整合學習模型的泛化效能隨著基學習器之間的差異性的增加得到提公升。

隨機森林的缺點：

隨機森林的起始效能一般很差，尤其是整合模型中只包含乙個基學習器時，但是隨著個體學習器數目增加，隨機森林可以收斂到更低的泛化誤差。並且隨機森林的訓練效率要優於bagging，bagging訓練中使用的是確定了的決策樹，在劃分時需要對結點的所有屬性都進行考察。而隨機森林使用的是隨機型的決策樹，一次只考察乙個屬性子集。

整合學習 隨機森林

整合學習 隨機森林

整合學習 隨機森林

整合學習與隨機森林理解

相關推薦

整合學習隨機森林

整合學習隨機森林

整合學習隨機森林