Pytorch 深度學習 Day03 梯度下降

對於目標函式 f(x) ，如果 f(x) 在 x 上的值比在 x 鄰近的其他點的值更小，那麼 f(x) 可能是乙個區域性最小值（local minimum）。如果 f(x) 在 x 上的值是目標函式在整個定義域上的最小值，那麼 f(x) 是全域性最小值（global minimum）。

深度學習模型的目標函式可能有若干區域性最優值。當乙個優化問題的數值解在區域性最優解附近時，由於目標函式有關解的梯度接近或變成零，最終迭代求得的數值解可能只令目標函式區域性最小化而非全域性最小化。

解決方法：

剛剛我們提到，梯度接近或變成零可能是由於當前解在區域性最優解附近造成的。事實上，另一種可能性是當前解在鞍點（saddle point）附近。

梯度下降演算法中的正數 η 通常叫作學習率。這是乙個超引數，需要人工設定。如果使用過小的學習率，會導致 x 更新緩慢從而需要更多的迭代才能得到較好的解。學習率選擇太大則，步子太大，容易扯著蛋，跨越最優解。

使用適當的學習率，沿著梯度反方向更新自變數可能降低目標函式值。梯度下降重複這一更新過程直到得到滿足要求的解。

在每一次迭代中，梯度下降使用整個訓練資料集來計算梯度，因此它有時也被稱為批量梯度下降（batch gradient descent）。而隨機梯度下降在每次迭代中只隨機取樣乙個樣本來計算梯度。正如我們在前幾章中所看到的，我們還可以在每輪迭代中隨機均勻取樣多個樣本來組成乙個小批量，然後使用這個小批量來計算梯度。

Pytorch 深度學習 Day03 梯度下降

Python學習筆記 day0

前端學習筆記 day0

day0 開發流程

Pytorch 深度學習 Day03 梯度下降

Python學習筆記 day0

前端學習筆記 day0

day0 開發流程

相關推薦