資訊熵與資訊增益

2021-10-17 20:39:45 字數 1060 閱讀 9230

資訊熵(information entropy)是度量樣本集合純度/不確定度最常用的指標之一。

但要注意,資訊熵越小,表示不確定度越低,確定度越高,純度越高

e nt

(d)=

−∑k=

1∣γ∣

pklo

g2pk

ent(d)=-\sum_^

ent(d)

=−∑k

=1∣γ

∣​pk

​log

2​pk

​ 資訊熵是對資訊量的度量。越小概率的事情發生所產生的資訊量越大。

資訊量的公式表示如下:

h (x

)=−l

og2p

(x

)h(x)=-log_2p(x)

h(x)=−

log2

​p(x

) 由於概率範圍為0-1,因此log2p(x)的範圍在負無窮到0,而負號則讓資訊量變成正數。正好可以得出,一件事情發生的概率越小,資訊量越大。

而資訊熵則代表了多件不相關的事件發生所產生的資訊量之和。

資訊增益(information gain)代表的是在乙個條件下,資訊複雜度(不確定性)減少的程度,也即純度提高的程度。

g ai

n(d,

a)=e

nt(d

)−∑v

v=1∣

dv∣d

ent(

dv

)gain(d, a)=ent(d)-\sum_^ent(d^v)}

gain(d

,a)=

ent(

d)−∑

vv=1

​d∣d

v∣​e

nt(d

v)資訊增益越大,表示資訊的不確定度降低的越多,即資訊的純度越高。

在決策樹的id3演算法中,追求的是資訊熵越小越好,資訊增益越大越好。

最大資訊熵增益 資訊熵與資訊增益

1.資訊熵 資訊熵就是指不確定性,熵越大,不確定性越大 2.關於資訊增益 資訊增益是針對乙個乙個的特徵而言的,就是看乙個特徵t,系統有它和沒它的時候資訊量各是多少,兩者的差值就是這個特徵給系統帶來的資訊量,即增益。系統含有特徵t的時候資訊量很好計算,就是剛才的式子,它表示的是包含所有特徵時系統的資訊...

最大資訊熵增益 資訊熵與資訊增益

前言 熵在機器學習中用的非常普遍,但這個又難以理解,經常忘記,寫一篇部落格記錄一下,也方便其他人學習了解。什麼是熵 一開始接觸熵是大二的資訊理論,非常難的一門課,當時學的時候不知道這個東西有什麼用,完全就不太想學,因為不知道幹嘛,也不知道學了有什麼用,但是現在很後悔,定義 熵也叫資訊熵,可以表徵隨機...

資訊熵與資訊熵增益

資料的資訊屬性是與任務相關的.對於分類任務,標籤值 y 包含的資訊量為 info y ln p y 其中,p y 為 y 出現的概率.p y 越小,y 包含的資訊量越大.這是符合直覺的.熵定義為資訊的期望值.乙個可以分為 m 類的資料集 s 它的資訊熵為隨機得到的乙個label包含的資訊量的期望值 ...