機器學習之整合學習演算法學習筆記

boosting方法是一種將弱學習器提公升為強學習器的演算法。

最著名的代表是 adaboost 演算法。它學習過程中，對分類正確的樣本降低了權重，對分類錯誤的樣本公升高權重或保持不變。

在演算法中，需要對訓練樣本分佈進行重新調整。有兩種調整方式：

重新賦權法：即在訓練的每一輪中，根據樣本分佈為每乙個訓練樣本重新賦予乙個權重。

重取樣法：即在每一輪訓練中，根據樣本分佈對訓練集重新取樣，利用重取樣的樣本進行訓練。

對於無法接受帶權重樣本的學習演算法，可以通過重取樣法。但在boosting 訓練中，每一輪訓練後都會檢查當前的學習器是否比隨機猜測要好，滿足保留，否則被拋棄。在這種情況下，也許學習的基學習器遠遠達不到預先設定的個數。

而採用重取樣法，可以避免這種情況發生。重取樣後如果不滿足，可以再次重新取樣對基學習器重新訓練。

從偏差-方差的角度來看，boosting 方法主要關注於降低偏差，因為在訓練過程中，不斷強調那些被分類錯誤的樣本。

原理：基於自助取樣法，從原始的樣本集中取樣出若干個不同的訓練子集，從每乙個子集中學習出不同的基學習器。

對**輸出結合時，分類任務可採取簡單投票法，回歸任務可採取簡單平均法。

自助取樣的另乙個優點在於，每個基學習器只使用了大概63.2%的樣本，剩下的36.8%樣本完全可以用來作為驗證集進行泛華效能估計。

bagging方法更關注於減小分類器的方差

隨機森林是bagging方法的乙個變體，它以決策樹為基學習器，決策樹的訓練過程中引入了隨機屬性選擇。傳統決策樹是在當前節點的屬性集合中選擇乙個最優屬性，而在rf中，對於每乙個節點，先從屬性集合中選擇出包含 k 個屬性的子集，再從子集中選擇乙個最優屬性作劃分。

引數 k 控制了隨機性的引入程度，k = 1的話就是隨機選擇乙個屬性進行劃分，等於屬性數的話就和傳統決策樹相同。一般，推薦 k = logk。

隨機森林的基學習器的多樣性不僅來自樣本擾動，還來自屬性的擾動，這就使得最終整合的泛華效能近一步提公升。

隨機森林的起始效能會比較差，因為屬性的擾動。但隨著學習器的數目增加，通常會降低到更低的泛華誤差。

從統計的角度看，單學習器的泛華效能不佳，結合多個學習器會有效降低這個風險；

從計算上來看，學習演算法往往會陷入區域性最優，通過多次的學習器執行，可降低陷入區域性最優的風險；

從表示的角度來看，某些學習任務的假設空間可能並不在當前學習演算法的假設空間內，導致演算法的效果差。而通過多個學習器的結合，相應的假設空間有所擴大，更有可能靠近真實假設。

最常用的基分類器是決策樹，有三個原因：

決策樹可以較為方便的將樣本權重整合到訓練中，而不需要使用重取樣的方式調整樣本權重（？）；

決策樹的表達能力和泛華能力，可以通過控制樹的層數來做折中；

資料樣本的擾動對決策樹的影響較大，因此不同的樣本子集生成的決策樹隨機性較大，更適合作為基分類器。

神經網路模型，也可以作為基分類器，因為神經網路的模型也相對不穩定，神經元的數量、連線方式、網路層數、初始的權值都會對模型產生很大影響。

隨機森林是基於bagging方法的整合學習，主要好處是降低了分類器的方差。bagging採用的基分類器最好是本身對樣本分佈比較敏感的，這樣後續的樣本分佈調整才會產生比較好的效果。而線性分類器或者k-近鄰屬於比較穩定的學習器，本身方差就不大，所以用它們作為基分類器並不能取得很好的效果，甚至可能因為取樣會加大整合分類器的偏差。

機器學習之整合學習演算法學習筆記

機器學習之KNN演算法學習筆記

機器學習演算法之整合學習

機器學習之PCA演算法學習

機器學習之整合學習演算法學習筆記

機器學習之KNN演算法學習筆記

機器學習演算法之整合學習

機器學習之PCA演算法學習

相關推薦