樹家族演算法梳理

2021-10-11 21:05:21 字數 1772 閱讀 5715

決策樹模型可以看做是if-else指令集合,通過對特徵空間的劃分來完成分類或者回歸任務。

如上圖,是樹模型的經典案例。根據天氣、溫度和風強度決策是否打網球。其過程就像是做了一系列的」if-else"判斷。即基於資料,讓演算法學習這些』if-else『規則。

單棵樹三大知名演算法:id3、c4.5、cart

2023年,由j.r.quinlan提出id3演算法,這是首個知名的決策樹演算法。相對於耗時的人工規則,id3用極其簡單優美的方式從資料中學習出這些【if-else】規則。

雖然id3很簡單,但是還是有很多限制。

1)特徵必須是離散,無法處理連續型特徵

2)特徵選擇gain公式偏向取值多的特徵

2023年,quinlan對其進行優化,並提出c4.5演算法。

2023年cart(分類回歸)演算法提出。與c4.5相比,他有兩個重要優點:

1)cart是二叉樹(c4.5是多叉樹),形式上更加優美簡潔,而且不用考慮連續特徵離散化問題;

2)cart既能處理分類,又可以處理回歸問題。(c4.5只支援分類)。

正因為這些優點gbdt才選擇用cart為基礎。

總的來說,id3是決策問題從人工規則到機器學習規則的過度,但是問題較多;c4.5是對id3的優化;cart擴充套件了c4.5解決問題的範疇,從分類到回歸。

樹模型和整合學習結合,發展成為『森林』,極大提公升了模型效果。最典型的森林演算法分為bagging和boosting兩類。

bagging演算法簇的rf,和boosting演算法簇的gbdt則為佼佼代表。在分類、回歸和排序應用中大展前途。

2023年,陳天奇博士團隊開源了xgboost,驚豔四座。xgboost是為了讓gbdt適應海量資料,從而做出的工程優化實踐。

2023年,微軟提出lightgbm,微軟任務xgb在處理海量資料的工作上做的還不夠好,lightgbm更加快速的實現的gbdt。

總的來說,整合學習是在cart基礎上讓樹模型能力的一次飛躍;而gbdt是樹模型與整合學習結合的佼佼者;xgboost和lightgbm則是海量資料背景下對gbdt的優化。

本篇主要內容是id3、c4.5和cart。再來回顧一下:

為了自動擬合資料,產出決策規則,j.r.quinlan提出id3演算法,他簡單優美,可以很好地達到預期目的。但是也有它的問題:只適用於離散特徵,不考慮剪枝有嚴重的過擬合風險等。

為了讓id3更加強大,針對其弊端j.r.quinlan做了優化改進,提出了c4.5演算法。改進了id3特徵選擇方法,增加了處理連續值和缺失值的功能;為了增加泛化能力,c4.5還進行了有效的剪枝策略。c4.5是乙個相對成熟通用的演算法,至今還有使用。

c4.5只能處理分類任務,導致通用性暴露短板。於是cart演算法就來了,cart將樹模型擴充套件為既能進行分類,又能解決回歸問題。這使得cart成為後來更多高效模型的基礎。

id3提出之前,對於分類決策需求,一般是人工規則或者簡單的概念學習(find-s演算法,候選-消除演算法等),其中最大的問題是對於雜訊過於敏感,容錯性差。而id3最大的優點就是基於統計資訊做出決策,能有效的對抗雜訊,提公升容錯性。
偽**:

演算法梳理(三)決策樹演算法梳理

目錄 1.資訊理論基礎 熵 聯合熵 條件熵 資訊增益 基尼不純度 2.決策樹的不同分類演算法 id3演算法 c4.5 cart分類樹 的原理及應用場景 3.回歸樹原理 4.決策樹防止過擬合手段 5.模型評估 6.sklearn引數詳解,python繪製決策樹 熵 資訊是很抽象的概念,一直都無法估計資...

決策樹演算法梳理

熵 entropy 在資訊理論與概率統計中,熵 entropy 是表示隨機變數不確定性的度量。設x是乙個取有限個值的離散隨機變數,其概率分布為 則隨機變數x的熵定義為 熵只依賴於x的分布,而與x的取值無關,所以也可將x的熵記作h 即 熵取值最大,隨機變數不確定性最大。條件熵 設有隨機變數 x,y 其...

決策樹演算法梳理

熵 又稱為自資訊,度量隨機變數的不確定性。純度 聯合熵 聯合熵是描述一對隨機變數平均所需要的資訊量 條件熵 h y x 表示在已知隨機變數 x 的條件下,隨機變數 y 的不確定性 資訊增益 以某特徵劃分資料集前後的熵的差值 基尼不純度 指將來自集合中的某種結果隨機應用在集合中,某一資料項的預期誤差率...