Gradient Descent學習筆記

今日網課初步學習了

gradient descent，特此把筆記記下，以後有空看看。

（同專業的發現不要抄我作業 tat）

定義出損失函式loss function，若該函式可微分，則可以使用梯度下降法。設變數為x=，損失函式為l（x）。為了找到損失函式的最小值（即目標的最優解），通過任意取乙個初始值，然後根據函式的性質迭代n次，找出較優的x解，迭代的方法如下：

當迭代次數足夠大，或者偏微分足夠小可看作幾乎為0時，結束迭代，此時得到最優解x。

因此，在此迭代過程中，learning rate大小的選擇尤為重要。learning rate在式子中相當於是乙個與微分相乘的權值，因此可以理解為每次試探的步長，learning rate的選擇可以下面例子說明。

如上圖所示，這是目標的loss function。顯然，要讓損失最少就要到達最低點。

①若learning rate過小，相當於在此過程中步長過小的藍色情況，因此，若要到達最低點，則需要更多次數的迭代。極大地增加了計算量，而且若迭代次數滿之後還未到達最低點，甚至會導致找不到較優解。

②若learning rate適中，相當於在此過程中步長適中的紅色情況，因此三次迭代後剛好到達最優解，結束迭代。然而這個值較為精確，很難找到。

③若learning rate過大，相當於在此過程中步長過大的綠色情況，由於迭代時步長過時，直接跳過了最低點到達了高點，於是又折回走，來回振盪，找不到最優解。

所以，為了選出合適的learning rate，可以採用一些演算法自動得到適合的adaptive learning rate

最普遍簡單的方法：每次迭代都按一定的演算法來減少learning rate，例如

為了更好地找到最低點，最好的方法是每個函式都設立乙個learning rate。

adagrad方法：

在迭代的減數中再除以過去微分的均方根，結合變化的learning rate，化簡得到：

特點是下降速度會越來越慢，後期非常緩慢。

圖中有乙個疑點：

按照原理來說，應該偏微分大的時候跨大一點，但是在分母加上了偏微分的均方根，使此時的跨步反而小了，如何解釋？

答：直觀的解釋：可以看成是一種反差，當某次微分突然變得特別大/小，因此除以均方根可以看出反差。

正式的解釋：當同時需要考慮多個引數時，不能單純地認為微分越大步伐越大。由二次方程推導最好的步伐大小應是正比於一次微分，反比於二次微分。但計算二次微分的計算時間代價會成倍增加，於是可以用過去微分的均方根來表示二次微分的大小，可以達到相似的效果。

stochastic gradient descent：

不等計算完所有的迭代x才更新引數，隨機或順序計算迭代完乙個x就更新一次引數。使得迭代速度變快。

feature scaling：

讓不同的變數（中的x1和x2）的scale相同。

通過使得scale一樣，使得更新的w1和w2的量級一樣，在各個方向上更加公平。

*feature scaling的方法（歸一化normalization）：

例如上圖中方法，有r個引數，每次輸入的資料有r個，取這一次組成乙個dimension，算出均值mi，和標準差，然後用上述式子把資料歸一化到[0,1]。

數學基礎：

泰勒展開：如果函式足夠平滑，在已知函式某一點的各階導數值都已知的情況下，可以用以下來估計領域中的值：

所以，當x接近x0的時候：

因為導數都是常量，可以簡化寫成：

又因為下次的位置是在以步長為半徑，此時位置為圓心的圈內，即下圖所示的紅圈內，需滿足以下條件：

把第乙個加數看成

第二個加數看成

然後分析函式：

s是常數相加，可以忽略不分析。變成兩個向量相乘

要使此時函式的值最小，必然是以下情況：

推出一開始的結論：

（這裡只考慮了一次展開，如果考慮二次式的話運算量增大，一般把learning rate調大一點。

gradient descent的注意點

可能找到了極小值或微分很接近0的地方，而找不到最小值。

總結一般步驟：

①確定引數數量

②選擇合適的loss function

③選擇learning rate的大小或變化策略

④選擇迭代的策略，如adagrad

⑤歸一化處理

Gradient Descent學習筆記

梯度下降（Gradient Descent）

gradient descent 梯度下降演算法

梯度下降法 gradient descent

Gradient Descent學習筆記

梯度下降（Gradient Descent）

gradient descent 梯度下降演算法

梯度下降法 gradient descent

相關推薦