decision tree的結點純度計算方法

2021-09-05 00:25:25 字數 849 閱讀 4919

決策樹是一種機器學習領域的分類方法,首先通過訓練集來構建決策樹,並在測試集上使用決策樹對測試資料進行分類。本文主要講解對各結點的純度計算方法。

要確定決策樹的根結點,要對不同屬性進行純度計算。主要有兩種計算方法。

公式:例如,某一屬性按照c1,c2兩類的分類情況如下:c10

c2對於這種情況,使用上述公式可得:

又或者是另一種情況:c13

c23對於這種情況,可得:

我們選擇純度最高的屬性作為根結點。

每種屬性繼續分為若干個兒子,如何計算這種屬性的gini值呢?

公式:假設某種屬性b又可分為n1,n2兩個結點。

每個結點繼續按照c1,c2分類

n1n2c15

1c224

計算n1,n2gini值

因此,這樣我們獲得了b屬性的純度值,可能別的屬性會不止分成兩個結點,但計算方法是一樣的。

公式:計算方法和gini類似:

某一屬性分為若干自結點,他的entropy計算方法也和gini相同,都是按照各個結點所佔權重進行計算。

兩種對於純度計算的方法都是對於結點分類純度的體現。對於乙個2-class分類,取值範圍如下:

可見在概率等於0.5時,達到峰值,此時純度最低。而概率越小或越大,確定性就越高,純度越大。

決策樹理論 Decision tree

決策樹面試被提及的題目 1 決策樹的原理 從根結點開始,對例項的某一特徵進行測試,根據測試的結果,將例項分配到其子結點 每乙個子結點對應著該特徵的乙個取值。如此遞迴地對例項進行測試並分配,直至達到葉結點。最後將例項分配到葉結點的類中。2 決策樹的過程 步驟 決策樹學習通常包括3個步驟 特徵選擇 決策...

Decision Tree演算法(決策樹)

1.定義 決策樹是一種十分常用的分類方法。決策樹是乙個樹結構 可以是二叉樹或非二叉樹 其每個非葉節點表示乙個特徵屬性上的測試,每個分支代表這個特徵屬性在某個值域上的輸出,而每個葉節點存放乙個類別。使用決策樹進行決策的過程就是從根節點開始,測試待分類項中相應的特徵屬性,並按照其值選擇輸出分支,直到到達...

《機器學習實戰》DecisionTree學習筆記

優點 計算複雜度不高,輸出結果易於理解,對中間值不明幹,可以處理不相關特徵資料。缺點 可能會產生過度匹配。範圍 數值型和標稱型。收集資料 準備資料 樹構造演算法只適用於標稱型資料,因此數值型資料必須離散化 分析資料 可以使用任何方法,構造樹完成之後,應該檢查圖形是否符合預期 訓練演算法 使用經驗樹計...