為什麼深度學習不採用牛頓法或擬牛頓法作為優化演算法?

2021-08-15 09:22:30 字數 321 閱讀 6929

出處:

原因一:牛頓法需要用到梯度和hessian矩陣,這兩個都難以求解。因為很難寫出深度神經網路擬合函式的表示式,遑論直接得到其梯度表示式,更不要說得到基於梯度的hessian矩陣了。

原因二:即使可以得到梯度和hessian矩陣,當輸入向量的維度n較大時,hessian矩陣的大小是n×n,所需要的記憶體非常大。

原因三:在高維非凸優化問題中,鞍點相對於區域性最小值的數量非常多,而且鞍點處的損失值相對於區域性最小值處也比較大。而二階優化演算法是尋找梯度為0的點,所以很容易陷入鞍點。

深度學習 梯度下降 牛頓法 擬牛頓法

1 梯度下降法 梯度下降法實現簡單,當目標函式是凸函式時,梯度下降法的解是全域性解。一般情況下,其解不保證是全域性最優解,梯度下降法的速度也未必是最快的。梯度下降法的優化思想 用當前位置負梯度方向作為搜尋方向,因為該方向為當前位置的最快下降方向,所以也被稱為是 最速下降法 最速下降法越接近目標值,步...

牛頓法與擬牛頓法學習筆記(一)牛頓法

好文!先轉在看!機器學習演算法中經常碰到非線性優化問題,如 sparse filtering 演算法,其主要工作在於求解乙個非線性極小化問題。在具體實現中,大多呼叫的是成熟的軟體包做支撐,其中最常用的乙個演算法是 l bfgs。為了解這個演算法的數學機理,這幾天做了一些調研,現把學習過程中理解的一些...

機器學習筆記 牛頓法與擬牛頓法

提要 今天講的牛頓法與擬牛頓法是求解無約束問題最優化方法的常用方法。一 牛頓法 假設我們求下面函式的最小值 假設f x 具有連續的二階的連續偏導數,假設第k次迭代值為xk的值,那麼可將f x 在xk附近進行二階泰勒展開得到 我們對上述公式求導可得 假設其中 可逆,我們就可以得到牛頓法的迭代公式為 這...