機器學習之決策樹

資訊增益 = 經驗熵 - 經驗條件熵

為了計算熵，我們需要計算所有類別所有可能值包含的資訊期望值(數學期望)，通過下面的公式得到：

經驗熵：

期中n是分類的數目。熵越大，隨機變數的不確定性就越大。麼叫由資料估計？比如有10個資料，一共有兩個類別，a類和b類。其中有7個資料屬於a類，則該a類的概率即為十分之七。其中有3個資料屬於b類，則該b類的概率即為十分之三。淺顯的解釋就是，這概率是我們根據資料數出來的。我們定義貸款申請樣本資料表中的資料為訓練資料集d，則訓練資料集d的經驗熵為h(d)，|d|表示其樣本容量，及樣本個數。設有k個類ck，k = 1,2,3,···,k，|ck|為屬於類ck的樣本個數，這經驗熵公式可以寫為：

經驗條件熵：

資訊增益定義之前，我們還需要明確乙個概念，條件熵。條件熵h(y|x)表示在已知隨機變數x的條件下隨機變數y的不確定性，隨機變數x給定的條件下隨機變數y的條件熵(conditional entropy) h(y|x)，定義x給定條件下y的條件概率分布的熵對x的數學期望：

資訊增益是相對於特徵而言的。所以，特徵a對訓練資料集d的資訊增益g(d,a)，定義為集合d的經驗熵h(d)與特徵a給定條件下d的經驗條件熵h(d|a)之差，即

一般地，熵h(d)與條件熵h(d|a)之差成為互資訊(mutual information)。決策樹學習中的資訊增益等價於訓練資料集中類與特徵的互資訊。

設特徵a有n個不同的取值，根據特徵a的取值將d劃分為n個子集d1,d2，···,dn，|di|為di的樣本個數。記子集di中屬於ck的樣本的集合為dik，即dik = di ∩ ck，|dik|為dik的樣本個數。於是經驗條件熵的公式可以些為：

構建決策樹的演算法有很多，比如c4.5、id3和cart，這些演算法在執行時並不總是在每次劃分資料分組時都會消耗特徵。由於特徵數目並不是每次劃分資料分組時都減少，因此這些演算法在實際使用時可能引起一定的問題。目前我們並不需要考慮這個問題，只需要在演算法開始執行前計算列的數目，檢視演算法是否使用了所有屬性即可。

機器學習之決策樹

機器學習之決策樹

機器學習之決策樹

機器學習之決策樹

相關推薦