機器學習之決策樹

2021-09-03 02:12:00 字數 1330 閱讀 8732

資訊增益 = 經驗熵 - 經驗條件熵

為了計算熵,我們需要計算所有類別所有可能值包含的資訊期望值(數學期望),通過下面的公式得到:

經驗熵:

期中n是分類的數目。熵越大,隨機變數的不確定性就越大。麼叫由資料估計?比如有10個資料,一共有兩個類別,a類和b類。其中有7個資料屬於a類,則該a類的概率即為十分之七。其中有3個資料屬於b類,則該b類的概率即為十分之三。淺顯的解釋就是,這概率是我們根據資料數出來的。我們定義貸款申請樣本資料表中的資料為訓練資料集d,則訓練資料集d的經驗熵為h(d),|d|表示其樣本容量,及樣本個數。設有k個類ck,k = 1,2,3,···,k,|ck|為屬於類ck的樣本個數,這經驗熵公式可以寫為:

經驗條件熵:

資訊增益定義之前,我們還需要明確乙個概念,條件熵。條件熵h(y|x)表示在已知隨機變數x的條件下隨機變數y的不確定性,隨機變數x給定的條件下隨機變數y的條件熵(conditional entropy) h(y|x),定義x給定條件下y的條件概率分布的熵對x的數學期望:

資訊增益是相對於特徵而言的。所以,特徵a對訓練資料集d的資訊增益g(d,a),定義為集合d的經驗熵h(d)與特徵a給定條件下d的經驗條件熵h(d|a)之差,即

一般地,熵h(d)與條件熵h(d|a)之差成為互資訊(mutual information)。決策樹學習中的資訊增益等價於訓練資料集中類與特徵的互資訊。

設特徵a有n個不同的取值,根據特徵a的取值將d劃分為n個子集d1,d2,···,dn,|di|為di的樣本個數。記子集di中屬於ck的樣本的集合為dik,即dik = di ∩ ck,|dik|為dik的樣本個數。於是經驗條件熵的公式可以些為:

構建決策樹的演算法有很多,比如c4.5、id3和cart,這些演算法在執行時並不總是在每次劃分資料分組時都會消耗特徵。由於特徵數目並不是每次劃分資料分組時都減少,因此這些演算法在實際使用時可能引起一定的問題。目前我們並不需要考慮這個問題,只需要在演算法開始執行前計算列的數目,檢視演算法是否使用了所有屬性即可。

機器學習之決策樹

在這裡,我想以更直觀的方式幫助各位理解 掌握並且運用 注意 是運用 決策樹,從而為機器學習作鋪墊。ps 但還是希望大家稍微知道決策樹大概是什麼樣子。1.根結點 root node 沒有入邊,但有零條或多條出邊 2.內部結點 internal node 恰有一條入邊和 兩條或多條出邊 3.葉結點 le...

機器學習之決策樹

決策樹是很常見的機器學習分類演算法,竟然叫決策樹,那麼它的模型其實就像樹一樣。通過對樣本集的學習,挖掘出有用的規則。對於程式設計師來說或許以條件語句來看就更好理解了,決策樹可以看成是多個if then條件語句的集合。這種模型等同於我們寫的條件語句,所以它的 分類速度是很快的。來個例子了解下決策樹分類...

機器學習之決策樹

簡介 決策樹是一種基本的分類方法,當然也可以用於回歸。我們一般只討論用於分類的決策樹。決策樹模型呈樹形結構。在分類問題中,表示基於特徵對例項進行分類的過程,它可以認為是if then規則的集合。在決策樹的結構中,每乙個例項都被一條路徑或者一條規則所覆蓋。通常決策樹學習包括三個步驟 特徵選擇 決策樹的...