決策樹劃分資料集

2021-08-20 04:18:16 字數 584 閱讀 7143

這段**主要是劃分資料,比如說看這個矩陣的第一列是否滿足需要,如果滿足需要,就把後面的新增進來,然後追加到新的矩陣中。。可是這麼做有什麼用途呢??另外,axis是軸的意思,這段**給出了三個引數,第乙個是要被劃分的資料集,第二個是軸線,比如說是第一列,還是第二列,第三個是value,看這一列的數值是否==value

def splitdataset(dataset, axis, value):

retdataset =

for featvec in dataset:

print(featvec)

if featvec[axis] == value:

reducedfeatvec = featvec[:axis]

reducedfeatvec.extend(featvec[axis+1:])

return retdataset

featvec[:axis] 是從列表index0到axis,如果axis=0,那麼返回的是乙個空的列表

featvec[axis+1:]是從列表index axis+1到最後

extend 是指將包含的內容加進去

決策樹 劃分資料集

機器學習實戰 中的 三個輸入引數為 待劃分的資料集 劃分資料集的特徵 需要返回的特徵的值。第4行,如果第axis個特徵滿足分類的條件,則進行以下操作 第5行,featvec axis 是從0號元素開始取axis個元素,此時reducedfeatvec是前axis個元素,即0號到axis 1號元素 第...

決策樹演算法之 劃分資料集

分類演算法除了需要測 資訊熵,還需要劃分資料集。在知道如何得到熵之後,就可以按照獲取最大資訊增益的方法來判斷是否正確地劃分了資料集。對每個特徵劃分資料集的結果計算一次資訊熵,以便判斷按照哪個特徵劃分資料集是最好的劃分方式。根據資訊增益,選擇最優的列來切分資料集 選擇最優的列進行切分 defbests...

決策樹劃分資料集的一些小東東

在劃分資料集之前之後資訊發生的變化叫做資訊增益,為了說明白資訊增益得先知道什麼是資訊,什麼是熵 熵 約翰 馮 諾依曼起的名 定義為資訊的期望。那麼設x為有限個離散的隨機變數,其概率分布為 p x xi pi,i 1,2,n i i i 1,2,ldots n p x xi p i i 1,2 n 隨...