熵,交叉熵,相對熵(KL散度)

2021-09-25 16:05:06 字數 1196 閱讀 5232

參考:

一、什麼是資訊?

1. 夏農對資訊的解釋:資訊是事物運動狀態或存在方式的不確定性的描述。

2. 何為資訊?什麼能提供資訊? 我將你原來不知道的結果告訴你,就是提供了資訊。

3. 如何衡量資訊量的大小? 事件發生的概率越小,此事件含有的資訊量就越大。 

我向你提供的資訊量大小,就是你事先不知道結果的程度!也即是資訊的不確定度。如果你事先全知道了,說明我提供的資訊量等於0;如果你事先一無所知,說明我提供的資訊量最多。

不知道意味著在我告訴你之前你只能進行猜測,猜測就是按照每個可能結果的出現概率進行猜測!因此你只知道這個事件的每個結果的發生概率! 所以,我提供的資訊量就是由你事先知道的每個可能結果的發生概率(即隨機事件的概率分布)決定。

二、的本質是夏農資訊量(-log p)的期望。

現有關於樣本集的2個概率分布p和q,其中p為真實分布,q非真實分布。按照真實分布p來衡量識別乙個樣本的所需要的編碼長度的期望(即平均編碼長度)為:h(p)=。如果使用錯誤分布q來表示來自真實分布p的平均編碼長度,則應該是:h(p,q)=交叉熵」。

比如含有4個字母(a,b,c,d)的資料集中,真實分布p=(1/2, 1/2, 0, 0),即a和b出現的概率均為1/2,c和d出現的概率都為0。計算h(p)為1,即只需要1位編碼即可識別a和b。如果使用分布q=(1/4, 1/4, 1/4, 1/4)來編碼則得到h(p,q)=2,即需要2位編碼來識別a和b(當然還有c和d,儘管c和d並不會出現,因為真實分布p中c和d出現的概率為0,這裡就欽定概率為0的事件不會發生啦)。

可以看到上例中根據非真實分布q得到的平均編碼長度h(p,q)大於根據真實分布p得到的平均編碼長度h(p)。事實上,根據gibbs' inequality可知,h(p,q)>=h(p)恆成立,當q為真實分布p時取等號。我們將由q得到的平均編碼長度比由p得到的平均編碼長度多出的bit數稱為「相對熵」:d(p||q)=h(p,q)-h(p)=kl散度(kullback–leibler divergence,kld) kullback–leibler divergence。它表示2個函式或概率分布的差異性:差異越大則相對熵越大,差異越小則相對熵越小,特別地,若2者相同則熵為0。注意,kl散度的非對稱性。

個人理解為,熵可以定性描述為資訊量的期望,也可以定量描述為所需編碼長度的期望。

熵,交叉熵,相對熵(KL散度)

先插入乙個鏈結視覺化資訊理論,簡單明瞭很容易看懂 資訊熵是度量隨機變數不確定度的指標,資訊熵越大意味著隨機變數不確定度越高,意味著系統的有序程度越低。他的定義 如果隨機變數p 他的概率p,i 則隨機變數p 的熵定義為 h p i 1 np x i lo g2p xi 交叉熵 cross entrop...

自資訊,KL散度 相對熵 ,交叉熵

深度學習 p47 自資訊 描述乙個所含有的資訊量,概率越小的事件所有包含的資訊量 也叫自資訊 越大,概率越大的事件發生了所包含的自資訊越小。自資訊的數學定義 i x l ogp x huge i x logp x i x logp x 機器學習中log的底一般為為自然對數e ee自資訊只是處理單個的...

相對熵(KL散度)

今天開始來講相對熵,我們知道資訊熵反應了乙個系統的有序化程度,乙個系統越是有序,那麼它的資訊熵就越低,反 之就越高。下面是熵的定義 如果乙個隨機變數 量 有了資訊熵的定義,接下來開始學習相對熵。contents 1.相對熵的認識 2.相對熵的性質 3.相對熵的應用 1.相對熵的認識 相對熵又稱互熵,...