決策樹ID3和C4 5的區別

2021-08-23 12:28:15 字數 1049 閱讀 6494

主要描述裡id3和c4.5的區別和改進,c4.5的優缺點,以及資訊增益與資訊增益比的計算方法

id3使用資訊增益作為特徵選擇的度量 

c4.5使用資訊增益作為特徵選擇的度量

資訊增益 

g(d,a)=h(d)−h(d|a)g(d,a)=h(d)−h(d|a) 

h(d)h(d)是資料集d的熵,計算公式h(d)=−∑kk=1|ck|nlog|ck|nh(d)=−∑k=1k|ck|nlog|ck|n 

ckck是在資料集d中出現k類的數量,n是樣本的數量,類別的總數 

h(d|a)h(d|a)是特徵a對與資料集d的條件熵,其意義是:在子集didi中y的分布。 

計算方法是 h(d|a)=∑ni=1nin∑kk=1−(niknilognikni)h(d|a)=∑i=1nnin∑k=1k−(niknilognikni) 

設特徵a是離散的,且有n個不同的取值:,根據特徵a的取值將d劃分為n個子集:d1,d2,...,dnd1,d2,...,dn,nini為對應的didi中的樣本數

綜合之後資訊增益的公式 

g(d,a)=h(d)−h(d|a)=h(d)−∑ni=1nin∑kk=1−(niknilognikni)g(d,a)=h(d)−h(d|a)=h(d)−∑i=1nnin∑k=1k−(niknilognikni)

特徵a對訓練集d的資訊增益比gr(d,a)gr(d,a)定義為 

gr(d,a)=g(d,a)ha(d)gr(d,a)=g(d,a)ha(d) 

ha(d)=−∑ni=1ninlogninha(d)=−∑i=1nninlognin 

ha(d)ha(d)刻畫了特徵a對訓練集d的分辨能力

c4.5繼承了id3的有點,並在以下幾個方面對id3演算法進行了改進:

c4.5的優點 

- 產生分類的規則易於理解 

- 準確率較高 

c4.5的缺點 

- 在構造樹的過程中需要多次對資料集進行掃瞄和排序,因而導致演算法的低效 

- 只適用於能夠駐留在記憶體的資料集,當資料集大的無法在記憶體容納是程式無法執行

待補充

決策樹演算法 ID3和C4 5

id3是quinlan提出的乙個著名的決策樹生成方法。一 id3的基本概念如下 二 資訊增益 從資訊理論知識中我們直到,期望資訊越小,資訊增益越大,從而純度越高。所以id3演算法的核心思想就是以資訊增益度量屬性選擇,選擇 後資訊增益最大的屬性進行 下面先定義幾個要用到的概念。設d為用類別對訓練元組進...

ML筆記 決策樹ID3和C4 5演算法的異同

決策樹作為監督學習演算法的經典,在商業上 如 電信客戶流失 等 具有廣泛的應用,常見的決策樹演算法有 id3 c4.5 c5.0等,其中id3演算法是基礎,另兩種為改進演算法,c5.0又作為一種商業軟體而存在,但我們可以呼叫r中的c50包實現該演算法,本文主要介紹id3 c4.5演算法的異同。資訊增...

ID3與C4 5的區別

無論是網路上還是任何一本入門級機器學習教材上面都對id3和c4.5的內容進行了詳細的介紹。在此不多加贅述,只簡單歸納下兩者之間的區別。嚴格說來,c4.5其實不是某一種特定的決策樹演算法,而是針對id3的缺陷進行改進的一系列演算法。1.c4.5可以處理連續性屬性,而id3不可以。2.id3通過資訊增益...