關於A Softmax損失函式的一些解釋

2021-09-26 20:08:08 字數 2707 閱讀 5951

關於a-softmax具體內容請參考**《sphereface: deep hypersphere embedding for face recognition》by weiyang liu, yandong wen, zhiding yu, ming li, bhiksha raj and le song。關於其損失函式的設計思路,thaurun的部落格a-softmax的總結及與l-softmax的對比——sphereface. 給出了一定的解釋。我根據我的理解再進行一些補充。

偷懶了,就暫且"盜用"thaurun部落格的一些內容。

重點解釋紅框中的內容。

我們都知道,兩個向量之間的夾角 θ∈[

0,π]

\theta\in[0,\pi]

θ∈[0,π

]。因此,如果使用式(1.4)(即紅框上面的式子)作為損失函式,則在範圍之外,即 θ∈[

πm,π

]\theta\in[\frac,\pi]

θ∈[mπ​

,π],可能存在部分區間使得cos

(mθy

i,i)

>co

s(θj

,i),

j≠yi

cos(m\theta_,i})>cos(\theta_), j\neq y_

cos(mθ

yi​,

i​)>co

s(θj

,i​)

,j̸​

=yi​

成立,然而mθyi,i

,i,j

≠yim\theta_,i}

mθyi​,

i​,i​,

j̸​=

yi​不成立的情況。如果堅持使用這個損失函式,則在最小化損失時必須加上θyi

,i∈[

0,πm

]\theta_,i}\in[0,\frac]

θyi​,i

​∈[0

,mπ​

]的約束條件。那麼原問題就變為乙個帶約束的優化問題,無法直接使用梯度下降法求解。

因此,作者設計了一種替代cos

(mθy

i,i)

cos(m\theta_,i})

cos(mθ

yi​,

i​)的方案—— ψ(θ

yi,i

)=(−

1)kc

os(m

θyi,

i)−2

k\psi(\theta_,i})=(-1)^cos(m\theta_,i})-2k

ψ(θyi​

,i​)

=(−1

)kco

s(mθ

yi​,

i​)−

2k,其中θyi

,i∈[

kπm,

(k+1

)πm]

,k∈\theta_,i}\in[\frac,\frac], k\in\

θyi​,i

​∈[m

kπ​,

m(k+

1)π​

],k∈

(注:關於k的取值,這個是我的理解,**中使用的是k∈[

0,m−

1]k\in[0,m-1]

k∈[0,m

−1])。很明顯,ψ(θ

yi,i

)\psi(\theta_,i})

ψ(θyi​

,i​)

是乙個分段函式(定義域為θyi

,i∈[

0,π]

\theta_,i}\in[0,\pi]

θyi​,i

​∈[0

,π]),函式值隨著θyi

,i\theta_,i}

θyi​,i

​單調遞減。也就是說對於式(1.5)的損失函式只有在θyi

,i∈[

0,πm

]\theta_,i}\in[0,\frac]

θyi​,i

​∈[0

,mπ​

](k=0)時,才有cos

(mθy

i,i)

>co

s(θj

,i),

j≠yi

cos(m\theta_,i})>cos(\theta_), j\neq y_

cos(mθ

yi​,

i​)>co

s(θj

,i​)

,j̸​

=yi​

成立,且mθyi,i

,i,j

≠yim\theta_,i}

mθyi​,

i​,i​,

j̸​=

yi​也成立。即對於以式(1.5)為目標函式的優化問題,θyi

,i\theta_,i}

θyi​,i

​的最優解一定在區間[πm

,π][\frac,\pi]

[mπ​,π

]中,這就符合了a-softmax的設計要求。

以上是個人的一些理解,可能有不對的地方,還請指出。

關於損失函式 Loss Function

機器學習中常見的損失函式 一般來說,我們在進行機器學習任務時,使用的每乙個演算法都有乙個目標函式,演算法便是對這個目標函式進行優化,特別是在分類或者回歸任務中,便是使用損失函式 loss function 作為其目標函式,又稱為代價函式 cost function 損失函式是用來評價模型的 值 y ...

損失函式 損失函式 Hinge

本文討論hinge損失函式,該函式是機器學習中常用的損失函式之一。在機器學習中,hinge loss是一種損失函式,它通常用於 maximum margin 的分類任務中,如支援向量機。數學表示式為 其中 表示 輸出,通常都是軟結果 就是說輸出不是0,1這種,可能是0.87。表示正確的類別。其函式影...

gan網路損失函式 GAN的損失函式

理解生成對抗網路的關鍵在於理解gan的損失函式 js散度 gan實際是通過對先驗分布施加乙個運算g,來擬合乙個新的分布 如果從傳統的判別式網路的思路出發,只要選定合適的loss,就可以使生成分布和真實分布之間的距離盡可能逼近 kl散度經常用來衡量分布之間距離 但kl散度是不對稱的。不對稱意味著,對於...