Bagging 與Boosting 特點分析

2021-08-04 14:25:16 字數 1192 閱讀 5127

對於bagging來說,每個基模型的權重等於1/m且期望近似相等(子訓練集都是從原訓練集中進行子抽樣),故我們可以進一步化簡得到:

根據上式我們可以看到,整體模型的期望近似於基模型的期望,這也就意味著整體模型的偏差和基模型的偏差近似。同時,整體模型的方差小於等於基模型的方差(當相關性為1時取等號),隨著基模型數(m)的增多,整體模型的方差減少,從而防止過擬合的能力增強,模型的準確度得到提高。但是,模型的準確度一定會無限逼近於1嗎?並不一定,當基模型數增加到一定程度時,方差公式第二項的改變對整體方差的作用很小,防止過擬合的能力達到極限,這便是準確度的極限了。另外,在此我們還知道了為什麼bagging中的基模型一定要為強模型,否則就會導致整體模型的偏差度低,即準確度低。

random forest是典型的基於bagging框架的模型,其在bagging的基礎上,進一步降低了模型的方差。random fores中基模型是樹模型,在樹的內部節點**過程中,不再是將所有特徵,而是隨機抽樣一部分特徵納入**的候選項。這樣一來,基模型之間的相關性降低,從而在方差公式中,第一項顯著減少,第二項稍微增加,整體方差仍是減少。

-  boosting的偏差和方差

對於boosting來說,基模型的訓練集抽樣是強相關的,那麼模型的相關係數近似等於1,故我們也可以針對boosting化簡公式為:

通過觀察整體方差的表示式,我們容易發現,若基模型不是弱模型,其方差相對較大,這將導致整體模型的方差很大,即無法達到防止過擬合的效果。因此,boosting框架中的基模型必須為弱模型。

因為基模型為弱模型,導致了每個基模型的準確度都不是很高(因為其在訓練集上的準確度不高)。隨著基模型數的增多,整體模型的期望值增加,更接近真實值,因此,整體模型的準確度提高。但是準確度一定會無限逼近於1嗎?仍然並不一定,因為訓練過程中準確度的提高的主要功臣是整體模型在訓練集上的準確度提高,而隨著訓練的進行,整體模型的方差變大,導致防止過擬合的能力變弱,最終導致了準確度反而有所下降。

基於boosting框架的gradient tree boosting模型中基模型也為樹模型,同random forrest,我們也可以對特徵進行隨機抽樣來使基模型間的相關性降低,從而達到減少方差的效果。

參考:

機器學習(五) Bagging與Boosting

bagging bagging breiman,1996 通過訓練許多基本分類器進行投票分類,每種基本分類器 如決策樹,神經網路 通過投票的方式降低偏差增加方差。假設我們的任務是使用訓練資料學習乙個模型 q 這些公式的含義?boosting boosting freund shapire,1996 ...

整合學習之bagging和boosting

整合演算法目標 整合演算法會考慮多個評估器的建模結果,彙總之後得到乙個綜合的結果,以此來獲取比單個模型更好的回歸或分類表現。整合學習 ensemble learning 通過構建並結合多個學習器來完成學習任務。一般結構為 先產生一組 個體學習器 再用某種策略將它們結合起來。但要獲得好的整合,個體學習...

Bagging與隨機森林

給定包含 m 個樣本的資料集 d,我們對它進行取樣產生資料集 d 每次隨機從 d 中挑選乙個樣本,將其拷貝放入 d 然後再將該樣本放回初始資料集 d 中,使得該樣本在下次取樣時仍有可能被採到 這個過程重複執行 m次後,我們就得到了包含 m 個樣本的資料集 d 這就是自助取樣的結果。顯然,d 中有一部...