最優化方法梯度下降

梯度下降：實現梯度下降、線性回歸中的梯度下降

隨機梯度下降：相關**即呼叫

**：一、概念

梯度下降(gradient descent, gd)不是乙個機器學習演算法，而是一種基於搜尋的最優化方法。梯度下降(gradient descent, gd)優化演算法，其作用是用來對原始模型的損失函式進行優化，以便尋找到最優的引數，使得損失函式的值最小。我麼需要從損失值出發，去更新引數，且要大幅降低計算次數。

梯度下降演算法作為乙個聰明很多的演算法，抓住了引數與損失值之間的導數，也就是能夠計算梯度（gradient），通過導數告訴我們此時此刻某引數應該朝什麼方向，以怎樣的速度運動，能安全高效降低損失值，朝最小損失值靠攏。

1、步長（learning rate）：步長又稱學習率，決定了在梯度下降迭代的過程中，每一步沿梯度負方向前進的長度。用上面下山的例子，步長就是在當前這一步所在位置沿著最陡峭最易下山的位置走的那一步的長度。

二、原理

就好比乙個蒙著眼睛的人下山，每次在負梯度最大的方向，向前走一步，走出一步後，比較前後的的落差，若落差小於一定閾值，則認為到達山谷，若落差大於閾值，則繼續向前走，直到到達山谷。

三、調優

步長、初始值、歸一化。

1、步長：步長太小，收斂慢，步長太大，會遠離最優解。所以需要從小到大，分別測試，選出乙個最優解。

2、初始值：隨機選取初始值，當損失函式是非凸函式時，找到的解可能是區域性最優解，需要多測試幾次，從區域性最優解中選出最優解。當損失函式是凸函式時，得到的解就是最優解。

3、歸一化：如果不歸一化，會收斂的很慢，會形成之字的路線。

四、分類

1、批量梯度下降法（bgd）

計算梯度時使用所有的樣本，這樣每次算出來的梯度都是當前最優的方向。

迭代次數少

若損失函式為凸函式，能夠保證收斂到全域性最優解；若為非凸函式，能夠收斂到區域性最優值（結果的準確度）

訓練速度慢（時間，每一次訓練需要的時間）

需要記憶體大（空間）

2、隨機梯度下降法（sgd）

隨機梯度下降法，其實和批量梯度下降法原理類似，區別在與求梯度時沒有用所有的m個樣本的資料，而是僅僅選取乙個樣本j來求梯度

訓練速度快

有機率跳出區域性最優解

容易收斂到區域性最優，並且容易被困在鞍點

迭代次數多

3、小批量梯度下降法（mbgd）

小批量梯度下降法是批量梯度下降法和隨機梯度下降法的折衷，也就是對於m個樣本，我們採用x個樣子來迭代，1

m'>110'>x=10

x=10。

待完善

最優化方法梯度下降

最優化梯度下降法

最優化演算法梯度下降

ML05 最優化方法梯度下降

最優化方法 梯度下降

最優化 梯度下降法

最優化演算法 梯度下降

ML05 最優化方法 梯度下降

相關推薦

最優化方法梯度下降

最優化梯度下降法

最優化演算法梯度下降

ML05 最優化方法梯度下降