交叉熵在機器學習中的使用

概率越小，資訊量越大，事件x=x

0x=x_0

x=x0

的資訊量為：

i (x

0)=−

log(

p(x0

))

i(x_0)=-log(p(x_0))

i(x0)

=−lo

g(p(

x0)

)熵表示所有資訊量的期望：

h (x

)=−∑

i=1n

p(xi

)log

(p(x

)h(x)=-\sum_^n p(x_i)log(p(x_i))

h(x)=−

i=1∑

np(

xi)

log(

p(xi

))其中n代表事件x有n種可能

d kl

(p∣∣

q)=∑

i=1n

p(xi

)log

(p(x

i)q(

xi))

d_(p||q)=\sum_^np(x_i)log(\frac)

dkl(p

∣∣q)

=i=1

∑np

(xi

)log

(q(x

i)p

(xi

))物理意義：如果用p來描述目標問題，而不是用q來描述問題，得到的資訊增量

在機器學習中，p往往表示樣本的真實分布，q表示模型**的分布，相對熵越小，表示q分布和p分布越接近

相對熵可以變形為：

d kl

(p∣∣

q)=−

h(p(

x))+

[−∑i

=1np

(xi)

log(

q(xi

))

]d_(p||q)=-h(p(x))+[-\sum_^np(x_i)log(q(x_i))]

dkl(p

∣∣q)

=−h(

p(x)

)+[−

i=1∑

np(

xi)

log(

q(xi

))]

等式的前半部分是p的熵，後半部分就是交叉熵：

h (p

,q)=

−∑i=

1np(

xi)l

og(q

(xi)

)h(p,q)=-\sum_^np(x_i)log(q(x_i))

h(p,q)

=−i=

1∑n

p(xi

)lo

g(q(

xi)

)在機器學習中，我們需要評估labl和predicts之間的差距，可以使用kl散度，但由於kl散度前半部分不變，故在優化過程中，只需要關注交叉熵就行，所以一般在機器學習中直接用交叉熵作為loss函式，評估模型。

在回歸問題中，常用mse做loss函式，但在邏輯分類中卻用不好，這時需要用交叉熵

當sigmod函式和mse一起使用時會出現梯度消失，原因是在使用mse時，w、b的梯度均與sigmoid函式對z的偏導有關係，而sigmoid函式的偏導在自變數非常大或非常小是，偏導數的值接近與0，這將導致w、b的梯度將不會變化，也就是出現所謂的梯度消失現象。而使用交叉熵時，梯度就不會出現上述情況。所以mse不適用於分類問題。

當mse和交叉熵同事應用於多分類場景下，mse對每個輸出結果都非常看重，而交叉熵只對正確分類的結果看重。可見mse除了讓正確的分類盡量變大，還會讓錯誤的分類變得平均，這對回歸問題顯得很重要，所以mse適合回歸問題的loss函式。

1、交叉熵在單分類中的使用

2、交叉熵在多分類中使用

nn.crossentropyloss(
)

這個損失函式和通常的交叉熵函式公式不一樣，它是nn.logsoftmax()和nn.nllloss()的整合，公式如下：

loss⁡(

class )=

−log⁡(

exp⁡(x

[class ])

∑j

exp⁡(x

[j])

)=−x

[class ]+

log⁡(∑

jexp⁡(

x[j]

))

\operatorname(x, \text )=-\log \left(\frac])} \exp (x[j])}\right)=-x[\text ]+\log \left(\sum_ \exp (x[j])\right)

loss(x

,class )=

−log(∑

jexp(x[

j])exp(x

[class ])

)=−

x[class ]+

log(j∑

exp(x

[j])

)

交叉熵在機器學習中的使用

演算法筆記交叉熵的含義以及在機器學習中的應用

機器學習基礎熵 KL散度交叉熵

在TensorFlow中實現交叉熵

交叉熵在機器學習中的使用

演算法筆記 交叉熵的含義以及在機器學習中的應用

機器學習基礎 熵 KL散度 交叉熵

在TensorFlow中實現交叉熵

相關推薦

演算法筆記交叉熵的含義以及在機器學習中的應用

機器學習基礎熵 KL散度交叉熵