熵,條件熵,相對熵,互資訊的相關定義及公式推導

2022-07-04 16:21:12 字數 1119 閱讀 1686

是隨機變數不確定性的度量,不確定性越大,熵值越大,若隨機變數退化成定值,熵為0,均勻分布是最不確定的分布。熵其實定義了乙個函式(概率分布函式)到乙個值(資訊熵)的對映。熵的定義公式如下:

在經典熵的定義中,底數是2,此時熵的單位是bit,若底數是e,則熵的單位是nat(奈特)

兩個隨機變數x, y的聯合分布,可以形成聯合熵joint entropy,用h(x,y)表示,那麼我們不禁要問:h(x,y) - h(y)代表什麼呢?

事實上,(x,y)發生所包含的熵,減去y單獨發生包含的熵,在y發生的前提下,x發生的新帶來的熵。於是有了條件熵:h(x|y)的定義:

下面是條件熵的推導公式:

相對熵,又稱為互熵,交叉熵,鑑別資訊,kl散度,假設p(x), q(x)是x中取值的兩個概率分布,則p對q的相對熵是:

對於相對熵,可以度量兩個隨機變數的距離,一般的p對q的相對熵和q對p的相對熵不相等。

對於已知的隨機變數p,要使得相對簡單的隨機變數q,盡量接近p,那麼我們可以採用相對熵進行求解:

假定使用kl(q||p),為了讓距離最小,則要求在p為0的地方,q盡量為0。會得到比較「窄」的分布曲線;

假定使用kl(p||q),為了讓距離最小,則要求在p不為0的地方,q也盡量不為0。會得到比較「寬」的分布曲線;

互資訊

兩個隨機變數x,y的互資訊,定義為x,y的聯合分布和獨立分布乘積的相對熵。

對於互資訊,我們可以有如下的推導公式:

熵,條件熵,互資訊,交叉熵

定義 用來度量資訊的不確定程度。解釋 熵越大,資訊量越大。不確定程度越低,熵越小,比如 明天太陽從東方公升起 這句話的熵為0,因為這個句話沒有帶有任何資訊,它描述的是乙個確定無疑的事情。例子 假設有隨機變數x,用來表達明天天氣的情況。x可能出現三種狀態 1 晴天2 雨天 3 陰天 每種狀態的出現概率...

通過示例總結條件熵 交叉熵 相對熵 互資訊

h y x 表示在已知隨機變數x的條件下,隨機變數y的不確定性,h y x 定義為 舉個例子 有一堆西瓜,已知這堆西瓜的色澤,以及每種色澤對應好瓜和壞瓜的個數,如下所示,設x表示色澤,y表示好瓜或者壞瓜。則 這個例子就是計算條件熵的乙個過程,現在證明條件熵公式 有很多書上的條件熵是這麼定義的,如果繼...

通過示例總結條件熵 交叉熵 相對熵 互資訊

h y x 表示在已知隨機變數x的條件下,隨機變數y的不確定性,h y x 定義為 舉個例子 有一堆西瓜,已知這堆西瓜的色澤,以及每種色澤對應好瓜和壞瓜的個數,如下所示,設x表示色澤,y表示好瓜或者壞瓜。則 這個例子就是計算條件熵的乙個過程,現在證明條件熵公式 有很多書上的條件熵是這麼定義的,如果繼...