KL散度 JS散度 Wasserstein距離

kl散度又稱為相對熵，資訊散度，資訊增益。kl散度是兩個概率分布p和q 差別的非對稱性的度量。 kl散度是用來度量使用基於q的編碼來編碼來自p的樣本平均所需的額外的位元數。典型情況下，p表示資料的真實分布，q表示資料的理論分布，模型分布，或p的近似分布。

定義如下：

因為對數函式是凸函式，所以kl散度的值為非負數。

有時會將kl散度稱為kl距離，但它並不滿足距離的性質：

js散度度量了兩個概率分布的相似度，基於kl散度的變體，解決了kl散度非對稱的問題。一般地，js散度是對稱的，其取值是0到1之間。

kl散度和js散度度量的時候有乙個問題：

如果兩個分配p,q離得很遠，完全沒有重疊的時候，那麼kl散度值是沒有意義的，而js散度值是乙個常數。這在學習演算法中是比較致命的，這就意味這這一點的梯度為0。梯度消失了。

wasserstein距離度量兩個概率分布之間的距離，定義如下：

π(p1,p2)是p1和p2分布組合起來的所有可能的聯合分布的集合。對於每乙個可能的聯合分布γ，可以從中取樣(x,y)∼γ得到乙個樣本x和y，並計算出這對樣本的距離||x−y||，所以可以計算該聯合分布γ下，樣本對距離的期望值e(x,y)∼γ[||x−y||]。在所有可能的聯合分布中能夠對這個期望值取到的下界infγ∼π(p1,p2)e(x,y)∼γ[||x−y||]就是wasserstein距離。

直觀上可以把e(x,y)∼γ[||x−y||]理解為在γ這個路徑規劃下把土堆p1挪到土堆p2所需要的消耗。而wasserstein距離就是在最優路徑規劃下的最小消耗。所以wesserstein距離又叫earth-mover距離。

wessertein距離相比kl散度和js散度的優勢在於：即使兩個分布的支撐集沒有重疊或者重疊非常少，仍然能反映兩個分布的遠近。而js散度在此情況下是常量，kl散度可能無意義。

KL散度 JS散度 Wasserstein距離

KL散度 JS散度

KL散度與JS散度

KL散度 JS散度以及交叉熵對比

KL散度 JS散度 Wasserstein距離

KL散度 JS散度

KL散度與JS散度

KL散度 JS散度以及交叉熵對比

相關推薦