說一下id3決策樹

2021-06-21 03:32:17 字數 498 閱讀 3848

決策樹看起來比較容易理解,而且,非常適合描述分類的過程和結果。

決策樹有兩類,分別是id3和cart。

id3適合用於離散型的特徵。

cart適合於連續型。

決策樹可以用最小熵來從n個樣本中的m個特徵中,挑選某個特徵的某個值,來做**。

(1)輸入n個樣本;

(2)從這n個樣本中挑選剩餘的s個特徵,然後通過最小熵理論挑選出最合適用來**的某個特徵,以及用來做**的值。比如,有一組樣本,它們的特徵是「年齡」「性別」「身高」,然後我們通過最小熵理論計算,挑選出了「性別」,並以「男」來做**。如果我們挑選出了「身高」這個特徵用來**,並且以「180cm」來作為**值,也是可以的(雖然我們說更適合離散型的特徵),也就是說,低於180的分一組,高於180的去另外一組這樣,等於的去第三組。也可以等於的一組,其它另外一組。這個比較靈活。

(3)這樣,在新的分組中,再次應用構造樹演算法,並且把原來的s個特徵減少為s-1個特徵(也就是說,上一次挑選出來的特徵不再用了,這是比較簡化的做法)

決策樹 ID3構建決策樹

coding utf 8 from math import log import operator 建立訓練資料集 defcreatedataset dataset 1,1,yes 1,1,yes 1,0,no 0,1,no 0,1,no 資料集的最後乙個元素作為該資料的標籤,是否是魚 labels...

決策樹之 ID3

id3 是一種用來構建決策樹的演算法,它根據資訊增益來進行屬性選擇。關於決策樹,請參見 此處主要介紹 id3 演算法如何利用資訊增益選擇屬性。資訊熵,簡稱 熵 假定訓練集中目標屬性為 c c的取值為 c1 c2,cm 每個取值佔的比例為p1 p2,pm 則資訊熵的定義為 en trop y s en...

決策樹 ID3演算法

id3演算法通過計算每個屬性的資訊增益,認為資訊增益越大屬性越優,每次劃分選取資訊增益最大的屬性為劃分標準,重複這個過程,直到構成一棵決策樹。資訊熵是描述事件給我們的驚訝程度,如果所有事件的概率均等,那熵值大,驚訝程度低。如果有一事件的概率極高而其他極低,熵值便低,驚訝程度大。其計算公式如下 資訊增...