機器學習 決策樹C4 5 ID3

2021-06-26 17:46:47 字數 1295 閱讀 3096

step1:計算資訊熵

step2: 劃分資料集        

step3: 建立決策樹

step4: 利用決策樹分類

重點:選擇乙個屬性進行分支。注意資訊熵計算公式。

決策樹作為典型的分類演算法,基本思路是不斷選取產生資訊增益最大的屬性來劃分樣例集和,構造決策樹。資訊增益定義為結點與其子結點的資訊熵之差。

1.資訊熵計算公式

pi為子集合中不同性(二元分類即正樣例和負樣例)的樣例的比例。其中n代表有n

個分類類別(比如假設是二分類問題,那麼n=2)。分別計算著2類樣本在總樣本中出現的概率p1和p2,這樣就可以計算出未選中屬性

分支前的資訊熵。

選中乙個屬性xi來進行分支,分支規則:如果xi=vx,則將樣本分到樹的乙個分支;過不相等則進入另乙個分支。很顯然,分支中的樣本很有可能包括2個類別,分別計算這2個分支的熵h1和h2,計算出分支後

的總資訊熵h』=p1*h1+p2*h2,那麼此時的資訊增益為δh=h-h』。以資訊增益為原則,把所有的屬性都測試一遍,選擇乙個使增益最大

的屬性作為本次分支屬性。

2.資訊增益計算公式

定義:樣本按照某屬性劃分時造成熵減少的期望,可以區分訓練樣本中正負樣本的能力。

常規決策樹通常為c4.5決策樹,其核心是id3演算法。構造樹的基本思想是隨著樹深度增加,節點的熵迅速地降低,熵降低的速度越快越好,目標就是構建高度最矮的決策樹。根據資訊熵減小的梯度順序決定構建樹節點。

logc(a/b) = logca -logcb

logab = logcb / logca

優點:1.計算量簡單,可解釋性強,比較適合處理有確實屬性值的樣本,能處理不相關的特徵;

2.對中間值缺失不敏感,可以處理不相關特徵資料

缺點:容易過擬合(改進的方案有rf

隨機森林,減小過擬合現象)

資料型別:數值型、標稱型

決策樹的剪枝可以減少過擬合的現象,但還是不夠,更多的還是利用模型組合,決策樹的幾個變種gbrtrf將在下面兩篇文章中提到。

機器學習 決策樹 ID3, C4 5

概念 決策樹 節點間的組織方式像一棵倒樹,以attribute 為節點,以 attribute 的不同值為分支。重點概念 1.資訊熵 熵是無序性 或不確定性 的度量指標。假如事件a 的全概率劃分是 a1,a2,an 每部分發生的概率是 p1,p2,pn 那資訊熵定義為 通常以 2為底數,所以資訊熵的...

機器學習 決策樹(ID3,C4 5)演算法解析

機器學習 決策樹 id3,c4.5 演算法解析 label 機器學習 決策樹 解析 決策樹實現思路 假設有已知的資料集x 例如某些人的集合,資料內容包括用於描述他們的特徵屬性及特徵屬性值,如性別 男 女 年齡 整數 收入 較低 中等 較高 等 以及資料集的分類標籤y 是否是某俱樂部的成員 是 否 對...

機器學習 決策樹ID3 C4 5和CART

決策樹又稱為判定樹,是運用於分類的一種樹結構,其中的每個內部節點代表對某一屬性的一次測試,每條邊代表乙個測試結果,葉節點代表某個類或類的分布。決策樹的決策過程需要從決策樹的根節點開始,待測資料與決策樹中的特徵節點進行比較,並按照比較結果選擇選擇下一比較分支,直到葉子節點作為最終的決策結果。常見的決策...