損失函式和梯度下降解釋

損失函式（loss function）是用來估量模型的**值(我們例子中的output)與真實值（例子中的y_train）的不一致程度，它是乙個非負實值函式，損失函式越小，模型的魯棒性就越好。我們訓練模型的過程，就是通過不斷的迭代計算，使用梯度下降的優化演算法，使得損失函式越來越小。損失函式越小就表示演算法達到意義上的最優。

多分類用的交叉熵損失函式，logsoftmax和nllloss整合到乙個類中，會呼叫nn.nllloss函式，我們可以理解為crossentropyloss()=log_softmax() + nllloss()

因為使用了nllloss，所以也可以傳入weight引數，這時loss的計算公式變為：

所以一般多分類的情況會使用這個損失函式

在介紹損失函式的時候我們已經說了，梯度下降是乙個使損失函式越來越小的優化演算法，在無求解機器學習演算法的模型引數，即約束優化問題時，梯度下降（gradient descent）是最常採用的方法之一。所以梯度下降是我們目前所說的機器學習的核心，了解了它的含義，也就了解了機器學習演算法的含義。

在微積分裡面，對多元函式的引數求∂偏導數，把求得的各個引數的偏導數以向量的形式寫出來，就是梯度。例如函式f(x,y), 分別對x，y求偏導數，求得的梯度向量就是(∂f/∂x, ∂f/∂y)t，簡稱grad f(x,y)或者▽f(x,y)。

幾何上講，梯度就是函式變化增加最快的地方，沿著梯度向量的方向，更加容易找到函式的最大值。反過來說，沿著梯度向量相反的方向梯度減少最快，也就是更加容易找到函式的最小值。

我們需要最小化損失函式，可以通過梯度下降法來一步步的迭代求解，得到最小化的損失函式，和模型引數值。

隨機梯度下降演算法，帶有動量（momentum）的演算法作為乙個可選引數可以進行設定，樣例如下：

#
lr引數為學習率，對於sgd來說一般選擇0.1 0.01.0.001，如何設定會在後面實戰的章節中詳細說明
##如果設定了momentum，就是帶有動量的sgd，可以不設定
optimizer = torch.optim.sgd(model.parameters(), lr=0.1, momentum=0.9)

除了以上的帶有動量momentum梯度下降法外，rmsprop（root mean square prop）也是一種可以加快梯度下降的演算法，利用rmsprop演算法，可以減小某些維度梯度更新波動較大的情況，使其梯度下降的速度變得更快

#
我們的課程基本不會使用到rmsprop所以這裡只給乙個例項
optimizer = torch.optim.rmsprop(model.parameters(), lr=0.01, alpha=0.99)

adam 優化演算法的基本思想就是將 momentum 和 rmsprop 結合起來形成的一種適用於不同深度學習結構的優化演算法

#
這裡的lr，betas，還有eps都是用預設值即可，所以adam是乙個使用起來最簡單的優化方法
optimizer = torch.optim.adam(model.parameters(), lr=0.001, betas=(0.9, 0.999), eps=1e-08)

損失函式和梯度下降解釋

損失函式和梯度下降

損失函式與梯度下降

梯度下降解決線性回歸

損失函式和梯度下降解釋

損失函式和梯度下降

損失函式與梯度下降

梯度下降解決線性回歸

相關推薦