鞍點 Hessian矩陣

2021-08-21 05:11:00 字數 1624 閱讀 7716

長期以來,人們普遍認為,神經網路優化問題困難是因為較大的神經網路中包含很多區域性極小值(local minima),使得演算法容易陷入到其中某些點。到2023年,一篇**《identifying and attacking the saddle point problem in high-dimensional non-convex optimization》,提出高維非凸優化問題之所以困難,是因為存在大量的鞍點而不是區域性極值。

圖一表示:神經網路只有兩個引數時的情況,水平方向分別為兩個引數,縱軸代表損失函式

圖二表示:神經網路具有高維引數時。

鞍點(saddle point)這個詞來自

z=x2−y2」 role=」presentation」 style=」position: relative;」>z=x

2−y2

z=x2−y2

的圖形,在x軸方向向上曲,在y軸方向向下曲,像馬鞍,鞍點為(0,0)。

擁有兩個以上引數的函式。它的曲面在鞍點好像乙個馬鞍,在某些方向往上曲,在其他方向往下曲。在一幅等高線圖裡,一般來說,當兩個等高線圈圈相交叉的地點,就是鞍點。

擴充套件:

神經網路優化問題中的鞍點即乙個維度向上傾斜且另一維度向下傾斜的點。

鞍點:梯度等於零,在其附近hessian矩陣有正的和負的特徵值,行列式小於0,即是不定的。

鞍點和區域性極值的區別

鞍點和區域性極小值相同的是,在該點處的梯度都等於零,不同在於在鞍點附近hessian矩陣是不定的,非正定,非負定,非半正定(行列式小於0),而在區域性極值附近的hessian矩陣是正定的。

在鞍點附近,基於梯度的優化演算法(幾乎目前所有的實際使用的優化演算法都是基於梯度的)會遇到較為嚴重的問題:

鞍點處的梯度為零,鞍點通常被相同誤差值的平面所包圍(這個平面又叫plateaus,plateaus是梯度接近於零的平緩區域,會降低神經網路學習速度),在高維的情形,這個鞍點附近的平坦區域範圍可能非常大,這使得sgd演算法很難脫離區域,即可能會長時間卡在該點附近(因為梯度在所有維度上接近於零)。

在鞍點數目極大的時候,這個問題會變得非常嚴重。

高維非凸優化問題之所以困難,是因為高維引數空間存在大量的鞍點。

補充:

hessian矩陣是乙個多元函式的二階偏導數構成的方陣,描述了函式的區域性曲率。可用於判定多元函式的極值。

Jacobian矩陣和Hessian矩陣

taylor s theorem 泰勒定理講的是 有乙個函式f x 是可微函式並且足夠光滑。那麼在函式某乙個點的各階導數值已知的情況下,泰勒公式可以用這些導數值作為多項式的係數,來近似函式在這一點的鄰域中的值。這個多項式就是泰勒多項式。泰勒公式還給出了餘項即這個多項式和實際函式值之間的偏差。泰勒級數...

Jacobian矩陣和Hessian矩陣

發表於 2012 年 8 月 8 日 1.jacobian 在向量分析中,雅可比矩陣是一階偏導數以一定方式排列成的矩陣,其行列式稱為雅可比行列式.還有,在代數幾何中,代數曲線的雅可比量表示雅可比簇 伴隨該曲線的乙個代數群,曲線可以嵌入其中.它們全部都以數學家卡爾 雅可比 carl jacob,180...

Jacobian矩陣和Hessian矩陣

在向量分析中,雅可比矩陣是一階偏導數以一定方式排列成的矩陣,其行列式稱為雅可比行列式.還有,在代數幾何中,代數曲線的雅可比量表示雅可比簇 伴隨該曲線的乙個代數群,曲線可以嵌入其中.它們全部都以數學家卡爾 雅可比 carl jacob,1804年10月4日 1851年2月18日 命名 英文雅可比量 j...