動手學深度學習（一）

其中 w1 和 w2 是權重（weight）， b 是偏差（bias），且均為標量。

訓練資料

損失函式

通常，我們用訓練資料集中所有樣本誤差的平均來衡量模型**的質量

w∗1,w∗2,b∗ ，為使訓練樣本平均損失最小的解

優化演算法

|b| 代表每個小批量中的樣本個數（批量大小，batch size），η稱作學習率（learning rate）並取正數。

習題

假如你正在實現乙個全連線層，全連線層的輸入形狀是7×8，輸出形狀是7 × 1，其中7是批量大小，則權重引數w和偏置引數b的形狀分別是_8x1___和_1x1___

當資料樣本數為 n ，特徵數為 d 時，線性回歸的向量計算表示式為

softmax回歸的基本概念如何獲取fashion-mnist資料集和讀取資料

softmax回歸模型的從零開始實現，實現乙個對fashion-mnist訓練集中的影象資料進行分類的模型

使用pytorch重新實現softmax回歸模型

前幾節介紹的線性回歸模型適用於輸出為連續值的情景。在另一類情景中，模型輸出可以是乙個像影象類別這樣的離散值。對於這樣的離散值**問題，我們可以使用諸如softmax回歸在內的分類模型。和線性回歸不同，softmax回歸的輸出單元從乙個變成了多個，且引入了softmax運算使輸出更適合離散值的**和訓練。本節以softmax回歸模型為例，介紹神經網路中的分類模型。

softmax回歸跟線性回歸一樣將輸入特徵與權重做線性疊加。與線性回歸的乙個主要不同在於，softmax回歸的輸出值個數等於標籤裡的類別數。因為一共有4種特徵和3種輸出動物類別，所以權重包含12個標量（帶下標的 w ）、偏差包含3個標量（帶下標的 b ），且對每個輸入計算 o1,o2,o3 這3個輸出：

既然分類問題需要得到離散的**輸出，乙個簡單的辦法是將輸出值 oi 當作**類別是 i 的置信度，並將值最大的輸出所對應的類作為**輸出，即輸出 argmaxioi 。例如，如果 o1,o2,o3 分別為 0.1,10,0.1 ，由於 o2 最大，那麼**類別為2，其代表貓。

然而，直接使用輸出層的輸出有兩個問題。一方面，由於輸出層的輸出值的範圍不確定，我們難以直觀上判斷這些值的意義。例如，剛才舉的例子中的輸出值10表示「很置信」影象類別為貓，因為該輸出值是其他兩類的輸出值的100倍。但如果 o1=o3=103 ，那麼輸出值10卻又表示影象類別為貓的概率很低。另一方面，由於真實標籤是離散值，這些離散值與不確定範圍的輸出值之間的誤差難以衡量。

softmax運算子（softmax operator）解決了以上兩個問題。它通過下式將輸出值變換成值為正且和為1的概率分布：

softmax運算不改變**類別輸出。

多層感知機在單層神經網路的基礎上引入了一到多個隱藏層（hidden layer）。隱藏層位於輸入層和輸出層之間。圖3.3展示了乙個多層感知機的神經網路圖。

多層感知機就是含有至少乙個隱藏層的由全連線層組成的神經網路，且每個隱藏層的輸出通過啟用函式進行變換。多層感知機的層數和各隱藏層中隱藏單元個數都是超引數。以單隱藏層為例並沿用本節之前定義的符號，多層感知機按以下方式計算輸出：

其中 ϕ 表示啟用函式。在分類問題中，我們可以對輸出 o 做softmax運算，並使用softmax回歸中的交叉熵損失函式。在回歸問題中，我們將輸出層的輸出個數設為1，並將輸出 o 直接提供給線性回歸中使用的平方損失函式。

動手學深度學習（一）

動手學深度學習

筆記動手學深度學習

《動手學深度學習》深度學習基礎複習

動手學深度學習（一）

動手學深度學習

筆記 動手學深度學習

《動手學深度學習》 深度學習基礎複習

相關推薦

筆記動手學深度學習

《動手學深度學習》深度學習基礎複習