資料探勘演算法 決策樹ID3演算法

2021-08-21 15:11:55 字數 524 閱讀 1978

id3演算法是一種分類**演算法,其核心思想是「資訊熵」。id3演算法通過計算每個屬性的資訊增益,認為資訊增益高的是好屬性,每次劃分選取資訊增益最高的屬性為劃分標準,重複這個過程,直至生成乙個能完美分類訓練樣例的決策樹。該決策樹方法先根據訓練集資料形成決策樹,如果該樹不能對所有物件給出正確地分類那麼選擇一些例外加入到訓練集資料中,重複該過程直到形成正確的決策集,決策樹代表決策集的樹形結構。

(1)對數值型資料進行離散化處理

(2)id3演算法構建決策樹

如果資料集類別相同,則停止劃分

否則,繼續劃分決策樹

演算法優點:理論清晰、方法簡單、學習能力較強

演算法缺點:

(1)只能處理分類屬性的資料,不能處理連續資料;

(2)劃分過程會因為子集規模過小而造成統計特徵不充分而停止;

(3)id3演算法在選擇根結點和各內部結點中的分支屬性時,採用資訊增益作為評價標準。資訊增益的缺點是傾向於選擇取值較多的屬性,在有些情況下這類屬性可能不會提供太多的價值。

決策樹 ID3演算法

id3演算法通過計算每個屬性的資訊增益,認為資訊增益越大屬性越優,每次劃分選取資訊增益最大的屬性為劃分標準,重複這個過程,直到構成一棵決策樹。資訊熵是描述事件給我們的驚訝程度,如果所有事件的概率均等,那熵值大,驚訝程度低。如果有一事件的概率極高而其他極低,熵值便低,驚訝程度大。其計算公式如下 資訊增...

決策樹 ID3演算法

一 決策樹基本概念 在機器學習中,決策樹是乙個 模型,它代表的是物件屬性與物件值之間的一種對映關係。本質上決策樹是通 過一系列規則對資料進行分類的過程。下圖為經典決策樹例項。如圖所示,例項是由 屬性 值 對表示的 例項是用一系列固定的屬性和他們的值構成。目標函式具有離散的輸出值 上圖給每個例項賦予乙...

決策樹ID3演算法

typeerror dict keys object does not support indexing 9.typeerror dict keys object does not support indexing 這個問題是python版本的問題 如果使用的是python2 firststr my...