深度學習基礎梯度下降

梯度檢驗

具體的梯度下降的理論和公式推導，部分部落格已經解釋的很詳盡了，本文更多的在於梯度下降的拓展問題。

現有結果表明，在處理複雜任務上，深度網路比淺層的網路有更好的效果。但是，目前優化神經網路的方法都是基於反向傳播的思想，即根據損失函式計算的誤差通過梯度反向傳播的方式，指導深度網路權值的更新優化。這樣做的原因在於：

深層網路由許多非線性層堆疊而來，每一層非線性層都可以視為乙個非線性函式，因此整個深度網路可以看成是乙個復合的非線性多元函式。

f (x

)=fn

(...

f3(f

2(f1

(x)∗

θ1+b

)∗θ2

+b).

..)f(x) = f_n (...f_3 (f_2 (f_1 (x) * \theta_1 + b) * \theta_2 + b)...)

f(x)=f

n(.

..f3

(f2

(f1

(x)

∗θ1

+b)∗

θ2+

b)..

.)我們最終的目的是希望整個多元函式可以很好的完成輸入到輸出之間的對映。假設不同的輸入，輸出的最優解是g(x

)g(x)

g(x)

，那麼，優化深度網路就是為了尋找到合適的權值，滿足los

s=l(

g(x)

,f(c

))loss = l(g(x), f(c))

loss=l

(g(x

),f(

c))取得極小值點，比如最簡單的損失函式los

s=∣∣

g(x)

−f(x

)∣∣2

2loss = ||g(x) - f(x)||_2^2

loss=∣

∣g(x

)−f(

x)∣∣

22深度神經網路訓練的時候，採用的是反向傳播方式，該方式使用鏈式求導，計算每層梯度的時候回涉及連乘操作，因此如果網路過深：

(1) 如果連乘的因子大部分小於1，連乘之後會趨近於0，後面的網路層的引數不發生變化，即梯度消失。

(2) 如果連乘的因子大部分大於1，連乘之後會趨近於無窮，即梯度**。

,x)sigmoid容易發生梯度消失，可以將啟用函式替換為relu。

(1) 模型無法從訓練資料中獲得更新（如低損失）。

(2) 模型不穩定，導致更新過程中的損失出現顯著變化。

(3) 訓練過程中，模型損失變成nan

hinton在2023年發表**，提出無監督逐層訓練方法。基本思想是每次訓練一層隱節點，訓練時將上一層隱節點的輸出作為輸入，而本層隱節點的輸出作為下一層隱節點的輸入，次過程稱為「預訓練」（pre-training）；預訓練完成後，再對整個網路進行「微調」（fine-tunning）。hinton在訓練深度信念網路（deep belief networks中，使用了這個方法，在各層預訓練完成後，再利用bp演算法對整個網路進行訓練。此思想相當於是先尋找區域性最優，然後整合起來尋找全域性最優，此方法有一定的好處，但是目前應用的不是很多了。

梯度剪下這個方案主要是針對梯度**提出的，其思想是設定乙個梯度剪下閾值，然後更新梯度的時候，如果梯度超過這個閾值，直接將梯度置為該值。

relu的表示式具體見上。如果啟用函式的導數為1，則不存在梯度**的問題，例如relu函式替代sigmoid和tanh。

batchnorm全名是batch normalization，簡稱bn，即批規範化，通過規範化操作將輸出訊號x規範化保證網路的穩定性。

詳見參考1

詳見參考1和4

只用於除錯中，不可用於訓練過程。

參考

詳解機器學習中的梯度消失、**原因及其解決方法

深度拾遺(01) - 梯度**/梯度消失/batch normal

詳解梯度**和梯度消失

添基礎 | batchnorm原理及**詳解

深度學習基礎梯度下降

深度學習梯度下降和反向傳播

深度學習優化方法 AdaGrad 梯度下降

深度學習基礎 BP和訓練常用的梯度下降

深度學習基礎 梯度下降

深度學習 梯度下降和反向傳播

深度學習優化方法 AdaGrad 梯度下降

深度學習基礎 BP和訓練 常用的梯度下降

相關推薦

深度學習基礎梯度下降

深度學習梯度下降和反向傳播

深度學習基礎 BP和訓練常用的梯度下降