資料探勘實驗 決策樹演算法之ID3演算法

2021-10-17 20:13:13 字數 1442 閱讀 3564

1、熟悉id3演算法建立決策樹的基本步驟,針對所給資料集建立決策樹,給出規則集。

2、熟悉spss clementine分布圖、散點圖、網路圖的建立方法,預習用clementine中c5.0節點建立決策樹。

1、決策樹基本概念

決策樹是乙個類似於流程圖的樹結構,其中每個內部結點表示在乙個屬性上的測試,每個分支代表乙個測試輸入,而每個樹葉結點代表類或類分布。數的最頂層結點是根結點。一棵典型的決策樹如圖1所示。它表示概念buys_computer,它**顧客是否可能購買計算機。內部結點用矩形表示,而樹葉結點用橢圓表示。為了對未知的樣本分類,樣本的屬性值在決策樹上測試。決策樹從根到葉結點的一條路徑就對應著一條合取規則,因此決策樹容易轉化成分類規則。

2、id3演算法

■ 決策樹中每乙個非葉結點對應著乙個非類別屬性,樹枝代表這個屬性的值。乙個葉結點代表從樹根到葉結點之間的路徑對應的記錄所屬的類別屬性值。

■ 每乙個非葉結點都將與屬性中具有最大資訊量的非類別屬性相關聯。

■ 採用資訊增益來選擇能夠最好地將樣本分類的屬性。

資訊增益基於資訊理論中熵的概念。id3總是選擇具有最高資訊增益(或最大熵壓縮)的屬性作為當前結點的測試屬性。該屬性使得對結果劃分中的樣本分類所需的資訊量最小,並反映劃分的最小隨機性或「不純性」。

測試資料1:假設你是一位正在彙總研究資料的醫學研究員。已收集了一組患有同一疾病的患者的資料,在**過程中,每位患者均對五種藥物中的一種有明顯反應。

(1)請針對資料來源 drug1n,建立決策樹,生成規則;

(2)給出第n個患者(n為學號後兩位)**結果;

(3)模擬新患病的病人,並給出**方案(採用哪種藥物**)。

實驗結果1:。

1、讀取文字資料

2、新增表

3、建立分布圖

資料探勘演算法 決策樹ID3演算法

id3演算法是一種分類 演算法,其核心思想是 資訊熵 id3演算法通過計算每個屬性的資訊增益,認為資訊增益高的是好屬性,每次劃分選取資訊增益最高的屬性為劃分標準,重複這個過程,直至生成乙個能完美分類訓練樣例的決策樹。該決策樹方法先根據訓練集資料形成決策樹,如果該樹不能對所有物件給出正確地分類那麼選擇...

決策樹 ID3演算法

id3演算法通過計算每個屬性的資訊增益,認為資訊增益越大屬性越優,每次劃分選取資訊增益最大的屬性為劃分標準,重複這個過程,直到構成一棵決策樹。資訊熵是描述事件給我們的驚訝程度,如果所有事件的概率均等,那熵值大,驚訝程度低。如果有一事件的概率極高而其他極低,熵值便低,驚訝程度大。其計算公式如下 資訊增...

決策樹 ID3演算法

一 決策樹基本概念 在機器學習中,決策樹是乙個 模型,它代表的是物件屬性與物件值之間的一種對映關係。本質上決策樹是通 過一系列規則對資料進行分類的過程。下圖為經典決策樹例項。如圖所示,例項是由 屬性 值 對表示的 例項是用一系列固定的屬性和他們的值構成。目標函式具有離散的輸出值 上圖給每個例項賦予乙...