對於學習率與梯度下降的通俗總結

針對原始的樣本（1,2）

針對線性回歸的函式 y=kx

對應的損失函式是 y=2kx^2,

那我們的方向就是希望最小化這個損失函式，得到最終的k值，然後再代入到

原始的線性函式中，那具體應該如何在最小化損失函式的時候得到對應的k值呢？

方法一：對於損失函式求導，然後令導數等於0，得到對應的k值，有時候並不能直接解出來，並且這種方式可能是區域性最優；

方法二：採用梯度下降與學習率的方法去求得最後的k值，明確梯度下降中的梯度

實際指的是損失函式的斜率，初始對於k設定乙個值例如0.3，然後將k值與樣本中的x值代入到損失函式中，得到損失函式的y值就是差距值，如果這個差距值符合要求就可以，但是太大的話可能就需要不斷的去調節這個k值，那新的k值如何獲得呢，對應的公式如下：

k1=k+at，

其中k1就是新的k值，k是初始設定的那個k值，而其中的a就是學習率，一般可以設定0.01，對於學習率的設定，如果設定的太小就會導致最終收斂太慢，而如果設定的太大的話，可能就會錯過最小值點，因此需要設定合適，而其中的t就是對應算是函式的斜率，得到的方式就是對損失函式進行求導，然後將樣本中的x值與初始k值代入到對應的其中得到斜率，得到新的k值，然後再將新的k值和x值代入到損失函式中，看下函式的差值是否在那個區間內。

總結：梯度下降其實就是斜率不斷的下降，最終希望是斜率為0對應的就是在谷底的時候得到對應的k值，就是最好的k值。

對於學習率與梯度下降的通俗總結

梯度下降學習總結

隨機梯度下降與梯度下降的區別？

隨機梯度下降與梯度下降的區別？

對於學習率與梯度下降的通俗總結

梯度下降學習總結

隨機梯度下降與梯度下降的區別？

隨機梯度下降與梯度下降的區別？

相關推薦