機器學習之相對熵

1.熵（資訊熵）的定義：不妨把資訊熵理解成某種特定資訊的出現概率（離散隨機事件的出現概率）。乙個系統越是有序，資訊熵就越低；反之，乙個系統越是混亂，資訊熵就越高。資訊熵也可以說是系統有序化程度的乙個度量。如果乙個隨機變數

2.相對熵：又稱互熵，交叉熵，鑑別資訊，kullback熵，kullback-leible散度（kl散度）等。設

在一定程度上，熵可以度量兩個隨機變數的距離。kl散度是兩個概率分布p和q差別的非對稱性的度量,所以相對熵有非對稱性。典型情況下，p表示資料的真實分布，q表示資料的理論分布，模型分布，或p的近似分布。

3.相對熵的性質：

a.非對稱性：相對熵直觀上理解是個距離度量或距離函式，但它並不是乙個真正的度量或者距離，因為它不具有對稱性，即

b.非負性：即

可以通過吉布斯不等式來證明，

4.相對熵的應用：相對熵是比較兩個概率分布的距離（相似度），因此可以用於文字相似度的計算；還可以用於權重指標的分配。

機器學習之資訊量，熵，相對熵，交叉熵概念辨析

可能性越小的事件其資訊量越大，極端情況下，確定事件的資訊量為0。事件 a aa 的資訊量為 ia log p a i a logp a ia l ogp a p a p a p a 為事件 a aa 發生的概率。熵就是乙個隨機變數x所有事件的資訊量的期望例如隨機變數x xx表示明天的天氣，所有事件...

詳解機器學習中的熵聯合熵條件熵相對熵和交叉熵

4 相對熵 relative entropy 也稱kl散度 kullback leibler divergence 5 交叉熵 cross entropy 但是真實分布不可知，假設訓練資料是從真實資料中獨立同分布取樣的，p train p real 因此，我們希望學到的模型分布至少和訓練資料的分布一...

機器學習一文理清資訊熵，相對熵，交叉熵

夏農提出資訊熵主要是用來解決對資訊的量化度量問題，比如說存在選項 a,b,c,d 若每個字母都用8位ascii碼儲存，則表示這個四個選項需要32位bit。如果此時採用二進位制的話，4個選項用2位bit便可表示 00,01,10,11 於是對4個選項資訊進行量化為log 2 4 2 2 4 2 log...

機器學習之相對熵

機器學習之資訊量，熵，相對熵，交叉熵概念辨析

詳解機器學習中的熵 聯合熵 條件熵 相對熵和交叉熵

機器學習 一文理清資訊熵，相對熵，交叉熵

相關推薦

詳解機器學習中的熵聯合熵條件熵相對熵和交叉熵

機器學習一文理清資訊熵，相對熵，交叉熵