資訊熵(information entropy)是度量樣本集合純度/不確定度最常用的指標之一。
但要注意,資訊熵越小,表示不確定度越低,確定度越高,純度越高。
e nt
(d)=
−∑k=
1∣γ∣
pklo
g2pk
ent(d)=-\sum_^
ent(d)
=−∑k
=1∣γ
∣pk
log
2pk
資訊熵是對資訊量的度量。越小概率的事情發生所產生的資訊量越大。
資訊量的公式表示如下:
h (x
)=−l
og2p
(x
)h(x)=-log_2p(x)
h(x)=−
log2
p(x
) 由於概率範圍為0-1,因此log2p(x)的範圍在負無窮到0,而負號則讓資訊量變成正數。正好可以得出,一件事情發生的概率越小,資訊量越大。
而資訊熵則代表了多件不相關的事件發生所產生的資訊量之和。
資訊增益(information gain)代表的是在乙個條件下,資訊複雜度(不確定性)減少的程度,也即純度提高的程度。
g ai
n(d,
a)=e
nt(d
)−∑v
v=1∣
dv∣d
ent(
dv
)gain(d, a)=ent(d)-\sum_^ent(d^v)}
gain(d
,a)=
ent(
d)−∑
vv=1
d∣d
v∣e
nt(d
v)資訊增益越大,表示資訊的不確定度降低的越多,即資訊的純度越高。
在決策樹的id3演算法中,追求的是資訊熵越小越好,資訊增益越大越好。
最大資訊熵增益 資訊熵與資訊增益
1.資訊熵 資訊熵就是指不確定性,熵越大,不確定性越大 2.關於資訊增益 資訊增益是針對乙個乙個的特徵而言的,就是看乙個特徵t,系統有它和沒它的時候資訊量各是多少,兩者的差值就是這個特徵給系統帶來的資訊量,即增益。系統含有特徵t的時候資訊量很好計算,就是剛才的式子,它表示的是包含所有特徵時系統的資訊...
最大資訊熵增益 資訊熵與資訊增益
前言 熵在機器學習中用的非常普遍,但這個又難以理解,經常忘記,寫一篇部落格記錄一下,也方便其他人學習了解。什麼是熵 一開始接觸熵是大二的資訊理論,非常難的一門課,當時學的時候不知道這個東西有什麼用,完全就不太想學,因為不知道幹嘛,也不知道學了有什麼用,但是現在很後悔,定義 熵也叫資訊熵,可以表徵隨機...
資訊熵與資訊熵增益
資料的資訊屬性是與任務相關的.對於分類任務,標籤值 y 包含的資訊量為 info y ln p y 其中,p y 為 y 出現的概率.p y 越小,y 包含的資訊量越大.這是符合直覺的.熵定義為資訊的期望值.乙個可以分為 m 類的資料集 s 它的資訊熵為隨機得到的乙個label包含的資訊量的期望值 ...