機器學習面試題 隨機森林 AdaBoost

2021-10-01 19:27:46 字數 1035 閱讀 8061

多次隨機取樣,多次隨機取屬性,選取最優分割點,構建多個(cart)分類器,投票表決

演算法流程:

如果是分類演算法**,則t

tt個弱學習器投出最多票數的類別或者類別之一為最終類別。如果是回歸演算法,t

tt個弱學習器得到的回歸結果進行算術平均得到的值為最終的模型輸出。

多次有放回的隨機取樣,多次隨機取屬性

因此隨機森林出現過擬合的概率相對低。

全樣本訓練忽視了區域性樣本的規律(各個決策樹趨於相同),對於模型的泛化能力是有害的,使隨機森

林演算法在羊本層面失去了隨機性。

隨機特徵保證基分類器的多樣性(差異性),最終整合的泛化效能可通過個體學習器之間的差異度而進

一步提公升,從而提高泛化能力和抗噪能力。

bagging無隨機特徵,使得訓練決策樹時效率更低

訓練誤差為0:模型過度擬合

驗證錯誤為34.23:該分類器用於未看見的樣本上時,找不到已有的模式

因此,為了避免這些情況,要用交叉驗證來調整樹的數量。

袋外資料(oob): 大約有1/3的訓練例項沒有參與第k棵樹的生成,它們稱為第k

kk棵樹的袋外資料樣本。

在隨機森林中某個特徵x

xx的重要性的計算方法如下:缺點

adaboost演算法利用同一種基分類器(弱分類器),基於分類器的錯誤率分配不同的權重引數,最後累加加權的**結果作為輸出。

缺點 在adaboost訓練過程中,adaboost會使得難於分類樣本的權值呈指數增長,訓練將會過於偏向這類困難的樣本,導致adaboost演算法易受雜訊干擾。

隨機森林和adaboost演算法都可以用來分類,它們都是優秀的基於決策樹的組合演算法。

不同之處

個人總結 ,如有錯誤,請批評指正!

機器學習 隨機森林

opencv包含隨機森林 random forest 類,隨機森林可以通過收集很多樹的子節點對各個類別的投票,然後選擇獲得最多投票的類別作為判斷結果。通過計算 森林 的所有子節點上的值的平均值來解決回歸問題。隨機森林包含隨機選擇的一些決策樹。隨機森林建立時的基本子系統也是決策樹,在建立決策樹時會一直...

機器學習 隨機森林

以下內容均為個人理解,如有錯誤,歡迎指出 如何生成隨機森林基學習器的訓練資料集 隨機 的含義 bagging整合學習的評測方法 隨機森林的引數 以下內容摘自周志華老師的 機器學習 隨機森林是bagging的乙個擴充套件變體,它在以決策樹為基學習器構建的bagging整合的基礎上,進一步在決策樹的訓練...

機器學習 隨機森林

以決策樹為基礎 隨機森林 決策樹的乙個主要缺點在於經常對訓練的資料過擬合。隨機森林是解決這個問題的一種方法。隨機森林的本質上是很多決策樹的集合,其中那個每棵樹都和其他樹略有不同。隨機森林背後砈思想史是,每棵樹的 都可能相對較好,但可能對部分書聚過擬合,如果我們構建很多樹,並且每棵樹都可以 的很好,但...