決策樹 劃分資料集

2021-08-21 17:23:17 字數 422 閱讀 7412

《機器學習實戰》中的**:

三個輸入引數為:待劃分的資料集、劃分資料集的特徵、需要返回的特徵的值。

第4行,如果第axis個特徵滿足分類的條件,則進行以下操作:

第5行,featvec[:axis]是從0號元素開始取axis個元素,此時reducedfeatvec是前axis個元素,即0號到axis-1號元素;

第6行,featvec[axis+1:]是從axis+1號元素開始取直到最後乙個。extend函式將兩次取的元素拼接起來,即從原來的列表中去掉了axis號元素;

第7行,將去除元素後的列表再組合起來,成為乙個新的列表,即滿足第axis個特徵的列表。

由此,完成了對第axis個特徵的劃分。

決策樹劃分資料集

這段 主要是劃分資料,比如說看這個矩陣的第一列是否滿足需要,如果滿足需要,就把後面的新增進來,然後追加到新的矩陣中。可是這麼做有什麼用途呢?另外,axis是軸的意思,這段 給出了三個引數,第乙個是要被劃分的資料集,第二個是軸線,比如說是第一列,還是第二列,第三個是value,看這一列的數值是否 va...

決策樹演算法之 劃分資料集

分類演算法除了需要測 資訊熵,還需要劃分資料集。在知道如何得到熵之後,就可以按照獲取最大資訊增益的方法來判斷是否正確地劃分了資料集。對每個特徵劃分資料集的結果計算一次資訊熵,以便判斷按照哪個特徵劃分資料集是最好的劃分方式。根據資訊增益,選擇最優的列來切分資料集 選擇最優的列進行切分 defbests...

決策樹劃分資料集的一些小東東

在劃分資料集之前之後資訊發生的變化叫做資訊增益,為了說明白資訊增益得先知道什麼是資訊,什麼是熵 熵 約翰 馮 諾依曼起的名 定義為資訊的期望。那麼設x為有限個離散的隨機變數,其概率分布為 p x xi pi,i 1,2,n i i i 1,2,ldots n p x xi p i i 1,2 n 隨...