2 9 區域性最優的問題

人們總是擔心優化演算法會困在極差的區域性最優，不過隨著深度學習理論不斷發展，我們對區域性最優的理解也發生了改變。

這是曾經人們在想到區域性最優時腦海裡會出現的圖，也許你想優化一些引數，我們把它們稱之為$$和$$，平面的高度就是損失函式。在圖中似乎各處都分布著區域性最優。梯度下降法或者某個演算法可能困在乙個區域性最優中，而不會抵達全域性最優。如果你要作圖計算乙個數字，比如說這兩個維度，就容易出現有多個不同區域性最優的圖，而這些低維的圖曾經影響了我們的理解，但是這些理解並不正確。事實上，如果你要建立乙個神經網路，通常梯度為零的點並不是這個圖中的區域性最優點，實際上成本函式的零梯度點，通常是鞍點。

但是乙個具有高維度空間的函式，如果梯度為 0，那麼在每個方向，它可能是凸函式，也可能是凹函式。如果你在 2 萬維空間中，那麼想要得到區域性最優，所有的 2 萬個方向都需要是這樣，但發生的機率也許很小，也許是$}$，你更有可能遇到有些方向的曲線會這樣向上彎曲，另一些方向曲線向下彎，而不是所有的都向上彎曲，因此在高維度空間，你更可能碰到鞍點，而不會碰到區域性最優。

由上圖我們可以分析是平穩段會減緩學習，平穩段是一塊區域，其中導數長時間接近於 0，如果你在此處，梯度會從曲面從從上向下下降，因為梯度等於或接近 0，曲面很平坦，你得花上很長時間慢慢抵達平穩段的這個點。

總結：你不太可能困在極差的區域性最優中，條件是你在訓練較大的神經網路，存在大量引數，並且成本函式j被定義在較高的維度空間。

平穩段是乙個問題，這樣使得學習十分緩慢，這也是像 momentum 或是rmsprop， adam 這樣的演算法，能夠加速學習演算法的地方。在這些情況下，更成熟的優化演算法，如 adam 演算法，能夠加快速度，讓你盡早往下走出平穩段。

2 9 區域性最優的問題

6 17 區域性重新整理

10 3區域性內部類

1 17 區域性內部類

2 9 區域性最優的問題

6 17 區域性重新整理

10 3區域性內部類

1 17 區域性內部類

相關推薦