機器學習故事匯梯度下降

【咱們的目標】系列演算法講解旨在用最簡單易懂的故事情節幫助大家掌握晦澀無趣的機器學習，適合對數學很頭疼的同學們，小板凳走起！

今天咱們的故事繼續上一次線性回歸來說，還不熟悉的小夥伴機票在這！機票直達-線性回歸

當時咱們怎麼嘮的，是不是很多情況下要求解的目標沒辦法直接求呀！那該怎麼辦呢？咱們來用機器學習中最常用的套路-優化求解，也就是一步一步朝著最優解的方向前進！

首先給出目標函式（還記得線性回歸中的目標函式嗎？）也就是我們要達到的目標是使得目標函式最小（最小對應著梯度下降問題，也就是下山，那麼最大也就是梯度上公升，求極大值）可以把我們的優化目標看成一座山，山是由我們兩個引數組成的，從上圖可以看出在山中有乙個山谷的最低點，這個最低點所對應的引數就是我們要求解的值！

那該怎麼求解呢？下山要一步一步來，第一步要找到合適的下山方向，也就是引數所對應的梯度方向（偏導）因為我們要沿著最快的方向去下山，所以梯度的方向是最合適的（多個引數的時候需要各自求其偏導）。找到方向之後我們就該實際的去走啦，那一次走多大呢？經驗表明一次走那麼一小小小小步是比較合適的，因為如果步伐太大容易偏離全域性最優解只得到區域性最優解。方向與步長都搞定了，接下來按著我們設計好的路線更新引數就可以啦！

下山的方式也有很多種，我們來對比一下。

批量梯度下降：如上式需要綜合考慮所有養那本，這就太慢了，但是效果還是蠻好的。

隨機梯度下降：觀察發現，每一次進行引數更新，只選擇了乙個樣本，這樣速度極快，但是代價就是一旦樣本有瑕疵，會對結果產生很大的干擾!所以隨機梯度下降會產生很大的浮動。

小批量梯度下降：這個就友好多了，綜合了上面兩位的優缺點，在迭代的時候選擇一批（32，64，128比較常見）個樣本來平均計算梯度的更新方向，這個就是現在應用最廣的梯度下降方法啦！乙個字，實用！

接下來我們再來研究一下步長（學習率）對結果產生的影響，從圖中可以看到很多條線並且它們之間有著明顯的差異，為啥模型不收斂！效果不好！沒達標！罪魁禍首就是學習率了，它對我們結果會產生非常大的影響，一般情況下我們都是用較小的學習率，較多的迭代次數來滿足它！

這張圖是乙個在真實資料集下使用邏輯回歸進行迭代的目標函式變化情況，可以看到當我們使用梯度下降的時候目標函式最終達到了乙個收斂狀態，現在已經最好了嗎？我們可以再增大些迭代次數再看看！

繼續增大迭代次數，發現目標函式又發生了變化，所以要讓模型更完美，需要更多輪次的訓練！我們再來對比下不同的梯度下降策略！

這張圖看起來有點亂呀，沒有達到熟練狀態，損失函式值還在亂蹦躂，這個就是隨機梯度下降的結果，可以看出來這樣的模型是不好的，只用乙個樣本來更新引數是不夠的！所以現在我們很少使用隨機梯度下降來解決實際問題。（那真的沒辦法用它了嗎？也可以代價就是用極小的學習率配上極大的迭代次數，那為啥不用小批量的呢？）

最後的這張圖就是收尾圖啦，首先觀察只用了4000次迭代就比之前的效果要好很多！這裡做了如下兩個工作。

（1）：對資料進行了標準化，讓資料各個特徵均值為0方差為（資料預處理的常規套路）

（2）：使用了小批量梯度下降進行迭代（保證了收斂性同時也加快了速度）

兩個簡單的操作就使得我們的模型效果快速達到了收斂狀態，請記住這倆套路，你會一直沿用下去的！

機器學習故事匯梯度下降

機器學習梯度下降

機器學習梯度下降

機器學習梯度下降

機器學習故事匯 梯度下降

機器學習 梯度下降

機器學習 梯度下降

機器學習 梯度下降

相關推薦

機器學習故事匯梯度下降

機器學習梯度下降

機器學習梯度下降

機器學習梯度下降