熵，交叉熵，相對熵（KL散度）

參考：

一、什麼是資訊？

1. 夏農對資訊的解釋：資訊是事物運動狀態或存在方式的不確定性的描述。

2. 何為資訊？什麼能提供資訊？我將你原來不知道的結果告訴你，就是提供了資訊。

3. 如何衡量資訊量的大小？事件發生的概率越小，此事件含有的資訊量就越大。

我向你提供的資訊量大小，就是你事先不知道結果的程度！也即是資訊的不確定度。如果你事先全知道了，說明我提供的資訊量等於0；如果你事先一無所知，說明我提供的資訊量最多。

不知道意味著在我告訴你之前你只能進行猜測，猜測就是按照每個可能結果的出現概率進行猜測！因此你只知道這個事件的每個結果的發生概率！所以，我提供的資訊量就是由你事先知道的每個可能結果的發生概率(即隨機事件的概率分布)決定。

二、熵的本質是夏農資訊量（-log p）的期望。

現有關於樣本集的2個概率分布p和q，其中p為真實分布，q非真實分布。按照真實分布p來衡量識別乙個樣本的所需要的編碼長度的期望(即平均編碼長度)為：h(p)=。如果使用錯誤分布q來表示來自真實分布p的平均編碼長度，則應該是：h(p,q)=交叉熵」。

比如含有4個字母(a,b,c,d)的資料集中，真實分布p=(1/2, 1/2, 0, 0)，即a和b出現的概率均為1/2，c和d出現的概率都為0。計算h(p)為1，即只需要1位編碼即可識別a和b。如果使用分布q=(1/4, 1/4, 1/4, 1/4)來編碼則得到h(p,q)=2，即需要2位編碼來識別a和b(當然還有c和d，儘管c和d並不會出現，因為真實分布p中c和d出現的概率為0，這裡就欽定概率為0的事件不會發生啦)。

可以看到上例中根據非真實分布q得到的平均編碼長度h(p,q)大於根據真實分布p得到的平均編碼長度h(p)。事實上，根據gibbs' inequality可知，h(p,q)>=h(p)恆成立，當q為真實分布p時取等號。我們將由q得到的平均編碼長度比由p得到的平均編碼長度多出的bit數稱為「相對熵」：d(p||q)=h(p,q)-h(p)=kl散度(kullback–leibler divergence，kld) kullback–leibler divergence。它表示2個函式或概率分布的差異性：差異越大則相對熵越大，差異越小則相對熵越小，特別地，若2者相同則熵為0。注意，kl散度的非對稱性。

個人理解為，熵可以定性描述為資訊量的期望，也可以定量描述為所需編碼長度的期望。

熵，交叉熵，相對熵（KL散度）

熵，交叉熵，相對熵（KL散度）

自資訊,KL散度 相對熵 ,交叉熵

相對熵（KL散度）

相關推薦

自資訊,KL散度相對熵 ,交叉熵