鞍點 Hessian矩陣

轉

長期以來，人們普遍認為，神經網路優化問題困難是因為較大的神經網路中包含很多區域性極小值（local minima），使得演算法容易陷入到其中某些點。到2023年，一篇**《identifying and attacking the saddle point problem in high-dimensional non-convex optimization》，提出高維非凸優化問題之所以困難，是因為存在大量的鞍點而不是區域性極值。

圖一表示：神經網路只有兩個引數時的情況，水平方向分別為兩個引數，縱軸代表損失函式

圖二表示：神經網路具有高維引數時。

鞍點（saddle point)這個詞來自

z=x2−y2」 role=」presentation」 style=」position: relative;」>z=x

2−y2

z=x2−y2

的圖形，在x軸方向向上曲，在y軸方向向下曲，像馬鞍，鞍點為（0，0）。

擁有兩個以上引數的函式。它的曲面在鞍點好像乙個馬鞍，在某些方向往上曲，在其他方向往下曲。在一幅等高線圖裡，一般來說，當兩個等高線圈圈相交叉的地點，就是鞍點。

擴充套件：

神經網路優化問題中的鞍點即乙個維度向上傾斜且另一維度向下傾斜的點。

鞍點：梯度等於零，在其附近hessian矩陣有正的和負的特徵值，行列式小於0，即是不定的。

鞍點和區域性極值的區別：

鞍點和區域性極小值相同的是，在該點處的梯度都等於零，不同在於在鞍點附近hessian矩陣是不定的，非正定，非負定，非半正定(行列式小於0)，而在區域性極值附近的hessian矩陣是正定的。

在鞍點附近，基於梯度的優化演算法（幾乎目前所有的實際使用的優化演算法都是基於梯度的）會遇到較為嚴重的問題：

鞍點處的梯度為零，鞍點通常被相同誤差值的平面所包圍（這個平面又叫plateaus，plateaus是梯度接近於零的平緩區域，會降低神經網路學習速度），在高維的情形，這個鞍點附近的平坦區域範圍可能非常大，這使得sgd演算法很難脫離區域，即可能會長時間卡在該點附近（因為梯度在所有維度上接近於零）。

在鞍點數目極大的時候，這個問題會變得非常嚴重。

高維非凸優化問題之所以困難，是因為高維引數空間存在大量的鞍點。

補充：

hessian矩陣是乙個多元函式的二階偏導數構成的方陣，描述了函式的區域性曲率。可用於判定多元函式的極值。

鞍點 Hessian矩陣

Jacobian矩陣和Hessian矩陣

Jacobian矩陣和Hessian矩陣

Jacobian矩陣和Hessian矩陣

鞍點 Hessian矩陣

Jacobian矩陣和Hessian矩陣

Jacobian矩陣和Hessian矩陣

Jacobian矩陣和Hessian矩陣

相關推薦