樹家族演算法梳理

決策樹模型可以看做是if-else指令集合，通過對特徵空間的劃分來完成分類或者回歸任務。

如上圖，是樹模型的經典案例。根據天氣、溫度和風強度決策是否打網球。其過程就像是做了一系列的」if-else"判斷。即基於資料，讓演算法學習這些』if-else『規則。

單棵樹三大知名演算法：id3、c4.5、cart

2023年，由j.r.quinlan提出id3演算法，這是首個知名的決策樹演算法。相對於耗時的人工規則，id3用極其簡單優美的方式從資料中學習出這些【if-else】規則。

雖然id3很簡單，但是還是有很多限制。

1）特徵必須是離散，無法處理連續型特徵

2）特徵選擇gain公式偏向取值多的特徵

2023年，quinlan對其進行優化，並提出c4.5演算法。

2023年cart（分類回歸）演算法提出。與c4.5相比，他有兩個重要優點：

1）cart是二叉樹（c4.5是多叉樹），形式上更加優美簡潔，而且不用考慮連續特徵離散化問題；

2）cart既能處理分類，又可以處理回歸問題。（c4.5只支援分類）。

正因為這些優點gbdt才選擇用cart為基礎。

總的來說，id3是決策問題從人工規則到機器學習規則的過度，但是問題較多；c4.5是對id3的優化；cart擴充套件了c4.5解決問題的範疇，從分類到回歸。

樹模型和整合學習結合，發展成為『森林』，極大提公升了模型效果。最典型的森林演算法分為bagging和boosting兩類。 bagging演算法簇的rf，和boosting演算法簇的gbdt則為佼佼代表。在分類、回歸和排序應用中大展前途。 2023年，陳天奇博士團隊開源了xgboost，驚豔四座。xgboost是為了讓gbdt適應海量資料，從而做出的工程優化實踐。 2023年，微軟提出lightgbm，微軟任務xgb在處理海量資料的工作上做的還不夠好，lightgbm更加快速的實現的gbdt。總的來說，整合學習是在cart基礎上讓樹模型能力的一次飛躍；而gbdt是樹模型與整合學習結合的佼佼者；xgboost和lightgbm則是海量資料背景下對gbdt的優化。

本篇主要內容是id3、c4.5和cart。再來回顧一下：為了自動擬合資料，產出決策規則，j.r.quinlan提出id3演算法，他簡單優美，可以很好地達到預期目的。但是也有它的問題：只適用於離散特徵，不考慮剪枝有嚴重的過擬合風險等。為了讓id3更加強大，針對其弊端j.r.quinlan做了優化改進，提出了c4.5演算法。改進了id3特徵選擇方法，增加了處理連續值和缺失值的功能；為了增加泛化能力，c4.5還進行了有效的剪枝策略。c4.5是乙個相對成熟通用的演算法，至今還有使用。 c4.5只能處理分類任務，導致通用性暴露短板。於是cart演算法就來了，cart將樹模型擴充套件為既能進行分類，又能解決回歸問題。這使得cart成為後來更多高效模型的基礎。

id3提出之前，對於分類決策需求，一般是人工規則或者簡單的概念學習（find-s演算法，候選-消除演算法等），其中最大的問題是對於雜訊過於敏感，容錯性差。而id3最大的優點就是基於統計資訊做出決策，能有效的對抗雜訊，提公升容錯性。

偽**：

樹家族演算法梳理

演算法梳理（三）決策樹演算法梳理

決策樹演算法梳理

決策樹演算法梳理

樹家族演算法梳理

演算法梳理（三）決策樹演算法梳理

決策樹演算法梳理

決策樹演算法梳理

相關推薦