牛頓法，擬牛頓法，共軛梯度法

牛頓法

（當函式非凸時，找到的依然是區域性極值）：

1、求解方程。

並不是所有的方程都有求根公式，或者求根公式很複雜，導致求解困難。利用牛頓法，可以迭代求解。

原理是利用泰勒公式，在x0處展開，且展開到一階

，即f(x) = f(x0)+(x－x0)f'(x0)

求解方程f(x)=0，即f(x0)+(x-x0)*f'(x0)=0，求解x = x1=x0－f(x0)/f'(x0)

，因為這是利用泰勒公式的一階展開，f(x) = f(x0)+(x－x0)f'(x0)處並不是完全相等，而是近似相等，這裡求得的x1並不能讓f（x）=0，只能說f(x1)的值比f(x0)更接近f（x）=0，於是乎，迭代求解的想法就很自然了，可以進而推出x(n+1)=x(n)－f(x(n))/f'(x(n))，通過迭代，這個式子必然在f（x*）=0的時候收斂。整個過程如下圖：

2、牛頓法用於最優化

在最優化的問題中，線性最優化至少可以使用單純行法求解，但對於非線性優化問題，牛頓法提供了一種求解的辦法。假設任務是

優化乙個目標函式f，求函式f的極大極小問題，可以轉化為求解函式f的導數f'=0的問題

，這樣求可以把優化問題看成方程求解問題（f'=0）。剩下的問題就和第一部分提到的牛頓法求解很相似了。

這次為了求解f'=0的根，把f（x）的泰勒展開，展開到2階形式：

這個式子是成立的，當且僅當 δx 無限趨近於0。此時上式等價於：

x 趨近於0時，這用到了極限的什麼定理？？

求解：得出迭代公式：

一般認為牛頓法可以利用到曲線本身的資訊，比梯度下降法更容易收斂（迭代更少次數），如下圖是乙個最小化乙個目標方程的例子，紅色曲線是利用牛頓法迭代求解，綠色曲線是利用梯度下降法求解。

在上面討論的是2維情況，高維情況的牛頓迭代公式是：

其中h是hessian矩陣，定義為：

高維情況依然可以用牛頓迭代求解，但是問題是hessian矩陣引入的複雜性，使得牛頓迭代求解的難度大大增加，但是已經有了解決這個問題的辦法就是quasi-newton methond（擬牛頓法），不再直接計算hessian矩陣，而是每一步的時候使用梯度向量更新hessian矩陣的近似矩陣b。

quasi-newton methond（擬牛頓法）

（當函式非凸時，找到的依然是區域性極值）：

擬牛頓演算法的核心思想用乙個近似矩陣

替代hessian矩陣h，即 b(k)約等於 h(k)

針對b(k)的計算，擬牛頓法有很多種：

還有其他演算法，更新b(k)的計算公式：

共軛梯度法

是介於梯度下降法和牛頓法，擬牛頓法之間的演算法。

梯度下降法收斂慢，牛頓法需要計算hessian矩陣，擬牛頓法需要很大的儲存空間。

牛頓法，擬牛頓法，共軛梯度法

深度學習梯度下降牛頓法擬牛頓法

牛頓法和擬牛頓法

牛頓法與擬牛頓法

牛頓法，擬牛頓法， 共軛梯度法

深度學習 梯度下降 牛頓法 擬牛頓法

牛頓法和擬牛頓法

牛頓法與擬牛頓法

相關推薦

牛頓法，擬牛頓法，共軛梯度法

深度學習梯度下降牛頓法擬牛頓法