深度學習優化

二、損失函式

三、深度學習中遇到的問題

區域性最優

定義：對於目標函式f(x)，如果f(x)在x上的值比在x鄰近的其他點的值更小，那麼f(x)可能是乙個區域性最小值（local minimum），如果f(x)在x上的值是目標函式在整個定義域上的最小值，那麼f(x)是全域性最小值（global minimum）

從上圖可知，目標函式在a點的梯度接近為0或直接為0，但是a只是區域性最優，並非全域性最優

鞍點在梯度為0或直接為0的點是區域性最優，但是還有一種發生的情況，a發生的可能性是處在鞍點附近

鞍點的定義：是函式上的導數為零，但不是軸上區域性極值的點

乙個多元函式的二階偏導數構成的方陣

判斷：

例子說明：

f(x,y,z)=x2+y2+z2+2x+4y-6z

函式一階偏導求得x,y,z的點(-1, -2, 3) 表示在三個變數方向上梯度都是為0的，但是這個點不知道是極小值或者極大值或者鞍點

對該函式繼續求二階偏導結果用海森矩陣表示為：

根據判斷的條件可知(-1, -2, 3)是極小值點，極小值為=-14

梯度消失，梯度**

由上sigmoidd導數可知，sigmoid函式的導數的最大值為0.25 ，通常我們會將權重初始值|w|初始化為為小於1的隨機值，因此我們可以得到

隨著層數的增多，那麼求導結果

越小，這也就導致了梯度消失問題。

在計算梯度時，根據不同情況梯度函式也會以指數級遞減，導致訓練難度上公升，梯度下降演算法的步長會變得非常小，需要訓練的時間將會非常長

那麼如果我們設定初始權重 |w|較大，那麼會有

造成梯度太大，也是造成梯度**的原因

四、鞍點，區域性最優優化方法

動量梯度下降法的整個過程為如下圖所示，其中β通常設定為0.9：

梯度下降過程對比，如下圖所示

rmsprop（root mean square prop）演算法將這些梯度按元素平方做指數加權移動平均

adagrad演算法在迭代後期由於學習率過小，可能較難找到乙個有用的解。為了解決這一問題，rmsprop演算法對adagrad演算法做了一點小小的修改

公式：

最終自變數每個元素的學習率在迭代過程中就不再一直降低。rmsprop 有助於減少抵達最小值路徑上的擺動，並允許使用乙個更大的學習率 α，從而加快演算法學習速度

adam

adam 優化演算法（adaptive moment estimation，自適應矩估計）將 momentum 和 rmsprop 演算法結合在一起

公式：五、梯度消失，梯度**優化

選擇合適的啟用函式，如relu，leaky relu

引數初始化策略，初始化權重的較小的值，緩解梯度**

輸入的特徵進行標準化

如果啟用函式的輸入x近似設定成均值為 0，標準方差為 1，神經元輸出 z 的方差就正則化到1了，雖然沒有解決梯度消失和**的問題，但其在一定程度上確實減緩了梯度消失和**的速度

深度學習優化方法

仍然是讀完deep learning之後的筆記和知識梳理，這些內容其實是偏理論層面的，後續的話可以結合進行講解。dl關注的優化問題尋找神經網路上的一組引數顯著降低代價函式j j 通常包括整個訓練集上效能評估 er 經驗風險和額外的正則化項 sr 結構風險對於偏應用層面的可以直接看基本演算法...

深度學習六優化

1.優化器 tensorflow 1.1 tf.train.gradientdescentoptimizer 梯度下降表示式傳入學習率，目標優化損失 tf.train.gradientdescentoptimizer learning rate minimize loss 1.2 tf.trai...

深度學習優化器

深度學習演算法在許多情況下都涉及優化，我們經常使用解析優化去證明或設計演算法。在深度學習的諸多優化問題中，最難的是神經網路的設計，這其中的優化問題非常重要，代價也很高，因此研究者們開發了一組專門為此設計的優化技術，也就是我們本文中要介紹的神經網路優化器。這些優化器主要關注一類特定的優化問題尋找神...

深度學習優化

深度學習 優化方法

深度學習 六 優化

深度學習優化器

相關推薦

深度學習優化方法

深度學習六優化