動手學深度學習(一)

2021-10-02 17:55:36 字數 2424 閱讀 2421

其中 w1 和 w2 是權重(weight), b 是偏差(bias),且均為標量。

訓練資料

損失函式

通常,我們用訓練資料集中所有樣本誤差的平均來衡量模型**的質量

w∗1,w∗2,b∗ ,為使訓練樣本平均損失最小的解

優化演算法

|b| 代表每個小批量中的樣本個數(批量大小,batch size),η稱作學習率(learning rate)並取正數。

習題

假如你正在實現乙個全連線層,全連線層的輸入形狀是7×8,輸出形狀是7 × 1,其中7是批量大小,則權重引數w和偏置引數b的形狀分別是_8x1___和_1x1___

當資料樣本數為 n ,特徵數為 d 時,線性回歸的向量計算表示式為

softmax回歸的基本概念 如何獲取fashion-mnist資料集和讀取資料

softmax回歸模型的從零開始實現,實現乙個對fashion-mnist訓練集中的影象資料進行分類的模型

使用pytorch重新實現softmax回歸模型

前幾節介紹的線性回歸模型適用於輸出為連續值的情景。在另一類情景中,模型輸出可以是乙個像影象類別這樣的離散值。對於這樣的離散值**問題,我們可以使用諸如softmax回歸在內的分類模型。和線性回歸不同,softmax回歸的輸出單元從乙個變成了多個,且引入了softmax運算使輸出更適合離散值的**和訓練。本節以softmax回歸模型為例,介紹神經網路中的分類模型。

softmax回歸跟線性回歸一樣將輸入特徵與權重做線性疊加。與線性回歸的乙個主要不同在於,softmax回歸的輸出值個數等於標籤裡的類別數。因為一共有4種特徵和3種輸出動物類別,所以權重包含12個標量(帶下標的 w )、偏差包含3個標量(帶下標的 b ),且對每個輸入計算 o1,o2,o3 這3個輸出:

既然分類問題需要得到離散的**輸出,乙個簡單的辦法是將輸出值 oi 當作**類別是 i 的置信度,並將值最大的輸出所對應的類作為**輸出,即輸出 argmaxioi 。例如,如果 o1,o2,o3 分別為 0.1,10,0.1 ,由於 o2 最大,那麼**類別為2,其代表貓。

然而,直接使用輸出層的輸出有兩個問題。一方面,由於輸出層的輸出值的範圍不確定,我們難以直觀上判斷這些值的意義。例如,剛才舉的例子中的輸出值10表示「很置信」影象類別為貓,因為該輸出值是其他兩類的輸出值的100倍。但如果 o1=o3=103 ,那麼輸出值10卻又表示影象類別為貓的概率很低。另一方面,由於真實標籤是離散值,這些離散值與不確定範圍的輸出值之間的誤差難以衡量。

softmax運算子(softmax operator)解決了以上兩個問題。它通過下式將輸出值變換成值為正且和為1的概率分布:

softmax運算不改變**類別輸出。

多層感知機在單層神經網路的基礎上引入了一到多個隱藏層(hidden layer)。隱藏層位於輸入層和輸出層之間。圖3.3展示了乙個多層感知機的神經網路圖。

多層感知機就是含有至少乙個隱藏層的由全連線層組成的神經網路,且每個隱藏層的輸出通過啟用函式進行變換。多層感知機的層數和各隱藏層中隱藏單元個數都是超引數。以單隱藏層為例並沿用本節之前定義的符號,多層感知機按以下方式計算輸出:

其中 ϕ 表示啟用函式。在分類問題中,我們可以對輸出 o 做softmax運算,並使用softmax回歸中的交叉熵損失函式。 在回歸問題中,我們將輸出層的輸出個數設為1,並將輸出 o 直接提供給線性回歸中使用的平方損失函式。

動手學深度學習

線性回歸的基本要素 模型 為了簡單起見,這裡我們假設 只取決於房屋狀況的兩個因素,即面積 平方公尺 和房齡 年 接下來我們希望探索 與這兩個因素的具體關係。線性回歸假設輸出與各個輸入之間是線性關係 price warea area wage age b price warea area wage a...

筆記 動手學深度學習

在求數值解的優化演算法中,小批量隨機梯度下降 mini batch stochastic gradient descent 在深度學習中被廣泛使用。它的演算法很簡單 先選取一組模型引數的初始值,如隨機選取 接下來對引數進行多次迭代,使每次迭代都可能降低損失函式的值。在每次迭代中,先隨機均勻取樣乙個由...

《動手學深度學習》 深度學習基礎複習

交叉熵只關心對正確類別的 概率,因為只要其值足夠大,就可以確保分類結果正確,而平方損失則過於嚴格,例如y i 1 y i 2 0比y i 1 0,y i 2 0.4的損失要小很多,雖然兩者都有同樣正確的分類 結果。正則化通過為模型損失函式新增懲罰項使學出的模型引數值較小,是應對過擬合的常用手段。權重...