softmax和交叉熵

2021-09-29 06:03:59 字數 1004 閱讀 2143

softmax用於多分類過程中,往往加在神經網路的他將多個神經元的輸出,對映到(0,1)區間內,看成概率來解,這些值的累和為1,在選取輸出節點的時候選取概率最大的節點作為我們的**目標,從而進行多分類。

softmax 相關求導

當對分類的loss進行改進時,我們通過梯度下降,每次優化乙個step大小的梯度,要求loss對每個權重矩陣求偏導,然後應用鏈式法則。

每次計算softmax偏導值,相當於做一次減法和乘法,在梯度反向傳播的過程中,給鏈式法則的那條鏈造成的負擔特別低。(因此比較受歡迎)

反向傳播,我們使用梯度下降,用交叉熵作為我們的損失函式

h (p

,q)=

−∑xp

(x)l

ogq(

x)h(p, q)=p(x)log q(x)}

h(p,q)

=−∑x

​p(x

)log

q(x)

交叉熵刻畫的是兩個概率分布之間的距離,或者說他刻畫的是通過概率q來表達概率p的困難程度,p一般代表真實值,q一般代表**值,交叉熵越小代表概率的分布越接近,可以說**值很好的接近了真實值。

而softmax就是將傳播得到的結果變成概率分布,所以可以和交叉熵一起用。

l os

s=−∑

iyil

nailoss = -} y_lna_

loss=−

∑i​y

i​ln

ai​y代表真實值,a代表我們softmax求出的值

如果只**乙個結果,那麼在目標中只有乙個節點的值為1,其他的為0

詳解softmax函式以及相關求導過程

softmax與交叉熵

交叉熵與Softmax

分類問題中,交叉熵常與softmax結合使用,交叉熵能夠衡量同乙個隨機變數中的兩個不同概率分布的差異程度,在機器學習中就表示為真實概率分布與 概率分布之間的差異。交叉熵的值越小,模型 效果就越好。資訊是用來消除隨機不確定性的東西 資訊量大小與資訊發生的概率成反比,概率越大,資訊量越小 概率越小,資訊...

邏輯回歸 交叉熵 softmax

softmax是一種歸一化函式,用於將向量中元素的值都歸一化0 1之間,並保持其加和為1。公示表達為 根據公式和可看出,前一層的啟用值越大,經過softmax函式後的值也就越大,又因為softmax的所有輸出加和為1,因此,常利用softmax層將啟用值與概率實現對映。多元分類 multi clas...

Softmax函式與交叉熵

在logistic regression二分類問題中,我們可以使用sigmoid函式將輸入wx b對映到 0,1 區間中,從而得到屬於某個類別的概率。將這個問題進行泛化,推廣到多分類問題中,我們可以使用softmax函式,對輸出的值歸一化為概率值 這裡假設在進入softmax函式之前,已經有模型輸出...