ML演算法 隨機森林演算法的總結(二)之整合學習

2021-09-11 17:40:35 字數 1536 閱讀 3614

一、決策樹演算法

請自行檢視下面文章

【rl演算法】隨機森林演算法的總結(一)

二、整合學習思想

整合學習(ensemble)思想是為了解決單個模型或者某一組引數的模型所固有的缺陷,從而整合起更多的模型,取長補短,避免侷限性。隨機森林就是整合學習思想下的產物,將許多棵決策樹整合成森林,並合起來用來**最終結果。

下圖顯示了adaboost整合基本框架圖。當給定乙個原始訓練集,adaboost演算法首先賦予訓練集的每個樣本相等的權重係數,然後用這些樣本訓練乙個弱分類器,並對原始訓練集的樣本進行**,接著更新訓練集樣本的權值。標記**錯誤的樣本,權重減少;標記**正確的樣本,權重增加。最後,adaboost獲得權值更新的訓練集。演算法不斷地重複之前的步驟,不斷生成新訓練集,不斷訓練新的分類器,直到獲得一組分類器。這組帶權重係數的分類器將用於**測試集中樣本的標記,並獲得最終結果。

adaboost整合基本框架圖

下圖顯示了隨機子空間整合基本框架圖。當給定乙個原始訓練集,該演算法首先對屬性維進行隨機取樣,生成一組隨機子空間;然後在子空間中生成相應的訓練集,並用不同子空間下的一組新訓練集來訓練出一組分類器。在測試階段,首先把測試集中的樣本投影到相應的子空間中,然後用子空間的分類器**樣本標記,最後通過合適的投票機制把所有的**結果進行綜合,從而獲得最終結果。

隨機子空間整合基本框架圖

半監督整合學習模型包括多檢視學習模型、共性最大化學習模型等。

非監督整合學習模型,又稱為聚類整合(cluster ensemble)或一致性聚類(consensus clustering),最早由strehl所提出。經過多年的研究,大量的聚類整合學習模型被提出來,如:基於圖論的聚類整合演算法、基於多次譜聚類的聚類整合演算法、混合模糊聚類整合演算法等。

然而整合學習模型的效能往往受到外在環境(如:樣本空間和屬性空間)和內在環境(基本分類器的引數和基本分類器的權重)的影響。但是傳統的整合學習模型沒有考慮到這些因素的綜合影響,沒有考慮到如何尋找最優的整合學習模型。而多角度自適應整合學習模型不但能夠考慮到整合模型的內在環境,而且能夠把握整合模型和外在環境之間的關係。多角度自適應整合學習模型之間會根據解決問題的需要進行一定的資訊互動,不斷地進行調整,直到達到最佳的狀態。多角度自適應整合學習模型將在傳統整合學習模型的基礎上,從多個不同角度加入自適應學習過程,從而獲取最優的整合學習模型。

隨機森林演算法

random forest是加州大學伯克利分校的breiman leo和adele cutler於2001年發表的 中提到的新的機器學習演算法,可以用來做分類,聚類,回歸,和生存分析,這裡只簡單介紹該演算法在分類上的應用。random forest 隨機森林 演算法是通過訓練多個決策樹,生成模型,然...

隨機森林演算法原理 機器學習演算法 隨機森林

隨機森林是一種通用的機器學習方法,能夠處理回歸和分類問題。它還負責資料降維 缺失值處理 離群值處理以及資料分析的其他步驟。它是一種整合學習方法,將一組一般的模型組合成乙個強大的模型 我們通過適用隨機的方式從資料中抽取樣本和特徵值,訓練多個不同的決策樹,形成森林。為了根據屬性對新物件進行分類,每個數都...

高階演算法梳理之隨機森林

本系列將重點續寫整合演算法,其中包括隨機森林 rf gbdt xgb lightgbm,本文將重點介紹隨機森林演算法 rf 整合學習,有個說法叫 三個臭皮匠,頂乙個諸葛亮 如下圖所示,簡單來說就是對於訓練集資料,我們通過訓練若干個個體學習器,通過一定的結合策略,就可以最終形成乙個強學習器,以達到博採...