對於學習率與梯度下降的通俗總結

2021-09-24 09:31:28 字數 683 閱讀 9326

針對原始的樣本(1,2)

針對線性回歸的函式 y=kx

對應的損失函式是 y=2kx^2,

那我們的方向就是希望最小化這個損失函式,得到最終的k值,然後再代入到

原始的線性函式中,那具體應該如何在最小化損失函式的時候得到對應的k值呢?

方法一:對於損失函式求導,然後令導數等於0,得到對應的k值,有時候並不能直接解出來,並且這種方式可能是區域性最優;

方法二:採用梯度下降與學習率的方法去求得最後的k值,明確梯度下降中的梯度

實際指的是損失函式的斜率,初始對於k設定乙個值例如0.3,然後將k值與樣本中的x值代入到損失函式中,得到損失函式的y值就是差距值,如果這個差距值符合要求就可以,但是太大的話可能就需要不斷的去調節這個k值,那新的k值如何獲得呢,對應的公式如下:

k1=k+at,

其中k1就是新的k值,k是初始設定的那個k值,而其中的a就是學習率,一般可以設定0.01,對於學習率的設定,如果設定的太小就會導致最終收斂太慢,而如果設定的太大的話,可能就會錯過最小值點,因此需要設定合適,而其中的t就是對應算是函式的斜率,得到的方式就是對損失函式進行求導,然後將樣本中的x值與初始k值代入到對應的其中得到斜率,得到新的k值,然後再將新的k值和x值代入到損失函式中,看下函式的差值是否在那個區間內。

總結:梯度下降其實就是斜率不斷的下降,最終希望是斜率為0對應的就是在谷底的時候得到對應的k值,就是最好的k值。

梯度下降學習總結

在機器學習過程中,經常使用梯度下降方法求解損失函式的最小值。梯度的值為函式在某一點,沿著各向量方向的偏導數。沿著梯度相反的方向,函式減小最快,更容易找到函式的最小值。函式的表示式為 h theta x x theta 損失函式的表示式為 j theta sum m h theta x i y i 2...

隨機梯度下降與梯度下降的區別?

如果你還不了解梯度下降請參考 知乎 ai醬 梯度下降是個啥?假設你已經懂了梯度下降的原理與公式。接下來我會舉個例子來講隨機梯度下降與梯度下降的區別。假如損失 誤差 函式對引數w的導數是x w x la bel x wx label x wx l abel 然後我們需要更新的引數是w ww,學習率是 ...

隨機梯度下降與梯度下降的區別?

如果你還不了解梯度下降請參考 知乎 ai醬 梯度下降是個啥?假設你已經懂了梯度下降的原理與公式。接下來我會舉個例子來講隨機梯度下降與梯度下降的區別。假如損失 誤差 函式對引數w的導數是x w x la bel x wx lab el 然後我們需要更新的引數是w w,學習率是 現在有一堆資料 x1 l...