decision tree的結點純度計算方法

決策樹是一種機器學習領域的分類方法，首先通過訓練集來構建決策樹，並在測試集上使用決策樹對測試資料進行分類。本文主要講解對各結點的純度計算方法。

要確定決策樹的根結點，要對不同屬性進行純度計算。主要有兩種計算方法。

公式：例如，某一屬性按照c1，c2兩類的分類情況如下：c10

c2對於這種情況，使用上述公式可得：

又或者是另一種情況：c13

c23對於這種情況，可得：

我們選擇純度最高的屬性作為根結點。

每種屬性繼續分為若干個兒子，如何計算這種屬性的gini值呢？

公式：假設某種屬性b又可分為n1，n2兩個結點。

每個結點繼續按照c1，c2分類

n1n2c15

1c224

計算n1，n2gini值

因此，這樣我們獲得了b屬性的純度值，可能別的屬性會不止分成兩個結點，但計算方法是一樣的。

公式：計算方法和gini類似：

某一屬性分為若干自結點，他的entropy計算方法也和gini相同，都是按照各個結點所佔權重進行計算。

兩種對於純度計算的方法都是對於結點分類純度的體現。對於乙個2-class分類，取值範圍如下：

可見在概率等於0.5時，達到峰值，此時純度最低。而概率越小或越大，確定性就越高，純度越大。

決策樹理論 Decision tree

決策樹面試被提及的題目 1 決策樹的原理從根結點開始，對例項的某一特徵進行測試，根據測試的結果，將例項分配到其子結點每乙個子結點對應著該特徵的乙個取值。如此遞迴地對例項進行測試並分配，直至達到葉結點。最後將例項分配到葉結點的類中。2 決策樹的過程步驟決策樹學習通常包括3個步驟特徵選擇決策...

Decision Tree演算法（決策樹）

1.定義決策樹是一種十分常用的分類方法。決策樹是乙個樹結構可以是二叉樹或非二叉樹其每個非葉節點表示乙個特徵屬性上的測試，每個分支代表這個特徵屬性在某個值域上的輸出，而每個葉節點存放乙個類別。使用決策樹進行決策的過程就是從根節點開始，測試待分類項中相應的特徵屬性，並按照其值選擇輸出分支，直到到達...

《機器學習實戰》DecisionTree學習筆記

優點計算複雜度不高，輸出結果易於理解，對中間值不明幹，可以處理不相關特徵資料。缺點可能會產生過度匹配。範圍數值型和標稱型。收集資料準備資料樹構造演算法只適用於標稱型資料，因此數值型資料必須離散化分析資料可以使用任何方法，構造樹完成之後，應該檢查圖形是否符合預期訓練演算法使用經驗樹計...

decision tree的結點純度計算方法

決策樹理論 Decision tree

Decision Tree演算法（決策樹）

《機器學習實戰》DecisionTree學習筆記

相關推薦