1 資訊熵 交叉熵 KL散度

2021-10-08 10:36:15 字數 1518 閱讀 7023

資訊量介紹

當我們考慮乙個離散的隨機變數x的時候,當我們觀察到的這個變數的乙個具體值的時候,我們接收到了多少資訊呢?

多少資訊用資訊量來衡量,我們接受到的資訊量跟具體發生的事件有關。

資訊的大小跟隨機事件的概率有關。越小概率的事情發生了產生的資訊量越大,如湖南產生的**了;越大概率的事情發生了產生的資訊量越小,如太陽從東邊公升起來了(肯定發生嘛,沒什麼資訊量)。

h(x)=-log2 p(x)

(1)為什麼有乙個負號

其中,負號是為了確保資訊一定是正數或者是0,總不能為負數吧!

(2)為什麼底數為2

這是因為,我們只需要資訊量滿足低概率事件x對應於高的資訊量。那麼對數的選擇是任意的。我們只是遵循資訊理論的普遍傳統,使用2作為對數的底!

資訊熵

下面我們正式引出資訊熵。

資訊量度量的是乙個具體事件發生了所帶來的資訊,而熵則是在結果出來之前對可能產生的資訊量的期望——考慮該隨機變數的所有可能取值,即所有可能發生事件所帶來的資訊量的期望。即

注:資訊熵還可以作為乙個系統複雜程度的度量,如果系統越複雜,出現不同情況的種類越多,那麼他的資訊熵是比較大的;如果乙個系統越簡單,出現情況種類很少(極端情況為1種情況,那麼對應概率為1,那麼對應的資訊熵為0),此時的資訊熵較小。(決策樹中有應用)

相對熵又稱kl散度,如果我們對於同乙個隨機變數 x 有兩個單獨的概率分布 p(x) 和 q(x),我們可以使用 kl 散度(kullback-leibler (kl) divergence)來衡量這兩個分布的差異.

在機器學習中,p往往用來表示樣本的真實分布,比如[1,0,0]表示當前樣本屬於第一類。q用來表示模型所**的分布,比如[0.7,0.2,0.1] 。直觀的理解就是如果用p來描述樣本,那麼就非常完美,而用q來描述樣本,雖然可以大致描述,但是不是那麼的完美,資訊量不足,需要額外的一些「資訊增量」才能達到和p一樣完美的描述。如果我們的q通過反覆訓練,也能完美的描述樣本,那麼就不再需要額外的「資訊增量」,q等價於p。

kl散度的計算公式:

n為事件的所有可能性,dkl的值越小,表示q分布和p分布越接近。

由相對熵的公式可推導出:

等式的前一部分恰巧就是p的熵,等式的後一部分,就是交叉熵:

交叉熵主要用於度量兩個概率分布間的差異性資訊,

在機器學習中,我們需要評估label和predicts之間的差距,使用kl散度剛剛好,即dkl(y||y^),由於kl散度中的前一部分−h(y)不變,故在優化過程中,只需要關注交叉熵就可以了。

所以一般在機器學習中直接用用交叉熵做loss,評估模型。

熵,交叉熵,相對熵(KL散度)

先插入乙個鏈結視覺化資訊理論,簡單明瞭很容易看懂 資訊熵是度量隨機變數不確定度的指標,資訊熵越大意味著隨機變數不確定度越高,意味著系統的有序程度越低。他的定義 如果隨機變數p 他的概率p,i 則隨機變數p 的熵定義為 h p i 1 np x i lo g2p xi 交叉熵 cross entrop...

熵,交叉熵,相對熵(KL散度)

參考 一 什麼是資訊?1.夏農對資訊的解釋 資訊是事物運動狀態或存在方式的不確定性的描述。2.何為資訊?什麼能提供資訊?我將你原來不知道的結果告訴你,就是提供了資訊。3.如何衡量資訊量的大小?事件發生的概率越小,此事件含有的資訊量就越大。我向你提供的資訊量大小,就是你事先不知道結果的程度!也即是資訊...

交叉熵 K L散度

資訊理論主要研究如何量化資料中的資訊。最重要的資訊度量單位是熵entropy,一般用h hh表示。分布的熵的公式如下 h i 1 np x i log p xi h sum p left x right cdot log p left x right h i 1 n p xi logp x i ex...