深入理解softmax函式

softmax回歸模型，該模型是logistic回歸模型在多分類問題上的推廣，在多分類問題中，類標籤

可以取兩個以上的值。softmax模型可以用來給不同的物件分配概率。即使在之後，我們訓練更加精細的模型時，最後一步也需要用softmax來分配概率。本質上其實是一種多種型別的線性分割，當類標籤

取 2 時，就相當於是logistic回歸模型。

在 softmax回歸中，我們解決的是多分類問題（相對於 logistic 回歸解決的二分類問題），類標

可以取個不同的值（而不是 2 個）。因此，對於訓練集

，我們有

。（注意此處的類別下標從 1 開始，而不是 0）。例如，在 mnist 數字識別任務中，我們有

個不同的類別。

對於給定的測試輸入

，我們想用假設函式針對每乙個類別j估算出概率值

。也就是說，我們想估計

的每一種分類結果出現的概率。因此，我們的假設函式將要輸出乙個

維的向量（向量元素的和為1）來表示這

個估計的概率值。具體地說，我們的假設函式

形式如下：

其中，x表示樣本，n表示樣本的總數。

這種代價函式與普通的二次代價函式相比，當**值與實際值的誤差越大，那麼引數調整的幅度就更大，達到更快收斂的效果。

證明如下：

其中：因此，w的梯度公式中原來的

被消掉了；另外，該梯度公式中的

表示輸出值與實際值之間的誤差。所以，當誤差越大，梯度就越大，引數w調整得越快，訓練速度也就越快。同理可得，b的梯度為：

如果你在開發乙個**分類的應用，需要對k種型別的**進行識別，那麼是選擇使用 softmax 分類器呢，還是使用 logistic 回歸演算法建立 k 個獨立的二元分類器呢？

如果你的四個類別如下：人聲**、舞曲、影視原聲、流行歌曲，那麼這些類別之間並不是互斥的。例如：一首歌曲可以**於影視原聲，同時也包含人聲。這種情況下，使用4個二分類的 logistic 回歸分類器更為合適。這樣，對於每個新的**作品，我們的演算法可以分別判斷它是否屬於各個類別。

現在我們來看乙個計算視覺領域的例子，你的任務是將影象分到三個不同類別中。(i) 假設這三個類別分別是：室內場景、戶外城區場景、戶外荒野場景。你會使用sofmax回歸還是 3個logistic 回歸分類器呢？ (ii) 現在假設這三個類別分別是室內場景、黑白、包含人物的，你又會選擇 softmax 回歸還是多個 logistic 回歸分類器呢？

在第乙個例子中，三個類別是互斥的，因此更適於選擇softmax回歸分類器。而在第二個例子中，建立三個獨立的 logistic回歸分類器更加合適。

深入理解softmax函式

深入理解函式

深入理解指標函式

深入理解指標函式

深入理解softmax函式

深入理解函式

深入理解指標函式

深入理解指標函式

相關推薦