機器學習樹模型對比總結

整合模型對比：rf，adaboost，gbdt，xgboost

1.與lightgbm相比，xgboost明顯的不足：

1）xgboosting採用預排序，在迭代之前，對結點的特徵做預排序，遍歷選擇最優分割點，資料量大時，貪心法耗時，lightgbm方法採用histogram演算法，占用的記憶體低，資料分割的複雜度更低；

2）xgboosting採用level-wise生成決策樹，同時**同一層的葉子，從而進行多執行緒優化，不容易過擬合，但很多葉子節點的**增益較低，沒必要進行跟進一步的**，這就帶來了不必要的開銷；lightgbm採用深度優化，leaf-wise生長策略，每次從當前葉子中選擇增益最大的結點進行**，迴圈迭代，但會生長出更深的決策樹，產生過擬合，因此引入了乙個閾值進行限制，防止過擬合.

2.adaboost和gbdt的異同點

1)關注點：分錯權值，殘差

adaboost每輪學習的乙個基本學習器是通過改變樣本的權值，關注上輪分類錯誤的樣本的權值，以逐步減少在訓練集上的分類誤差率。而gbdt每輪學習乙個基本學習器是通過改變輸出值，每輪擬合的值為真實值與已有的加法模型的差值（即殘差）。

2)異常點

:adaboost

存在異常點敏感的問題

,gbdt

一定程度上優化了

adaboost

異常點敏感的問題，但是存在難以並行的缺點

3）樹:gbdt無論是進行分類還是回歸問題，都用的cart樹，對分類問題用二叉分類樹，回歸問題用二叉回歸樹。

4）方差偏差:兩者的目標都是優化

bias

，必然導致訓練出來的資料

var的不穩定

3.rf和gbdt對比

相同點：1.都是由多棵樹組成；2.最終的結果都是由多棵樹一起決定；

不同點： 1）基於bagging思想，而gbdt是boosting思想，即取樣方式不同

2）rf可以並行生成，而gbdt只能是序列；

3）輸出結果，rf採用多數投票，gbdt將所有結果累加起來；

4）rf對異常值不敏感，gbdt敏感，rf減少方差，gbdt減少偏差；

4.gbdt和lr

從決策邊界來說，線性回歸的決策邊界是一條直線，lr的決策邊界是一條曲線，而gbdt的決策邊界可能是很多條線。gbdt並不一定總是好於線性回歸或lr。根據奧卡姆剃刀原則，如果gbdt和線性回歸或邏輯回歸在某個問題上表現接近，那麼我們應該選擇相對比較簡單的線性回歸或邏輯回歸。具體選擇哪乙個演算法還是要根據實際問題來決定。

5.gbdt和rf哪個容易過擬合？

rf，因為隨機森林的決策樹嘗試擬合資料集，有潛在的過擬合風險，而boosting的gbdt的決策樹則是擬合資料集的殘差，然後更新殘差，由新的決策樹再去擬合新的殘差，雖然慢，但是難以過擬合。

6.adaboost等幾種基本機器學習演算法哪個抗噪能力最強，哪個對重取樣不敏感？

adaboost對異常值敏感

k-means對異常值敏感

機器學習樹模型對比總結

機器學習模型樹

樹模型機器學習面試

機器學習模型評估總結

機器學習樹模型對比總結

機器學習 模型樹

樹模型 機器學習面試

機器學習模型評估總結

相關推薦

機器學習模型樹

樹模型機器學習面試