決策樹 C4 5演算法

c4.5演算法是用於生成決策樹的的一種經典演算法，是id3演算法的一種延伸和優化。改進了點：

(1）通過資訊增益率選擇**屬性，克服了id3演算法中通過資訊增益傾向於選擇擁有多個屬性值的屬性作為**屬性的不足；

(2）能夠處理離散型和連續型的屬性型別，即將連續型的屬性進行離散化處理；

(3）構造決策樹之後進行剪枝操作；

(4)能夠處理具有缺失屬性值的訓練資料

id3 核心原則是每次切分都是通過「最大資訊熵增益」，但它一般會選擇有較多屬性值的feature，因為屬性越多的feature會有相對較大的資訊增益。

c4.5 相對id3 來說避免了採用資訊增益度量存在的乙個缺點，而c4.5 採用了資訊增益比率來選擇分支的準則

資訊增益比 = 懲罰引數 * 資訊增益

注意：其中的ha(d)，對於樣本集合d，將當前特徵a作為隨機變數（取值是特徵a的各個特徵值），求得的經驗熵。
（之前是把集合類別作為隨機變數，現在把某個特徵作為隨機變數，按照此特徵的特徵取值對集合d進行劃分，計算熵ha(d)）
資訊增益比本質： 是在資訊增益的基礎之上乘上乙個懲罰引數。特徵個數較多時，懲罰引數較小；特徵個數較少時，懲罰引數較大。
懲罰引數：資料集d以特徵a作為隨機變數的熵的倒數，即：將特徵a取值相同的樣本劃分到同乙個子集中（之前所說資料集的熵是依據類別進行劃分的）
缺點：資訊增益比偏向取值較少的特徵
原因： 當特徵取值較少時ha(d)的值較小，因此其倒數較大，因而資訊增益比較大。因而偏向取值較少的特徵。
使用資訊增益比：基於以上缺點，並不是直接選擇資訊增益率最大的特徵，而是現在候選特徵中找出資訊增益高於平均水平的特徵，然後在這些特徵中再選擇資訊增益率最高的特徵。
c4.5 通過引入乙個被稱作**資訊的項來懲罰取值較多的feature，還彌補了id3 中不能處理特徵屬性連續的問題，但對連續屬性值需要掃瞄排序，使c4.5效能下降
 決策樹之C4 5演算法
c4.5演算法是機器學習中的乙個重要的決策樹演算法，它是對id3演算法的改進，相對於id3演算法主要有以下幾個改進 1 用資訊增益率來選擇屬性 2 在決策樹的構造過程中對樹進行剪枝 3 對非離散資料也能處理 4 能夠對不完整資料進行處理 接下來分別詳細講述這幾點的改進方案 1 用資訊增益率來選擇屬性...
C4 5決策樹演算法思想
前幾天有小夥伴問到這個演算法，於是想總結一下好了，畢竟是乙個如此著名的演算法，這裡就重在思想啦 建議配合實際例子學習。參考 1 周志華 機器學習 2 決策樹 decision tree 是在已知各種情況發生概率的基礎上，通過構成決策樹來評價專案風險，判斷其可行性的決策分析方法，是直觀運用概率分析的一...
決策樹之C4 5演算法
1.採用資訊增益率 因為 id3 在計算的時候，傾向於選擇取值多的屬性。為了避免這個問題，c4.5 採用資訊增益率的方式來選擇屬性。資訊增益率 資訊增益 屬性熵，具體的計算公式這裡省略。當屬性有很多值的時候，相當於被劃分成了許多份，雖然資訊增益變大了，但是對於 c4.5 來說，屬性熵也會變大，所以整...

決策樹 C4 5演算法

決策樹之C4 5演算法

C4 5決策樹演算法思想

決策樹之C4 5演算法

相關推薦