梯度下降法及其改進演算法

2021-08-24 17:25:42 字數 1373 閱讀 2488

**:

introduce

今天會說兩個問題,第一,建議大腳多看看大牛的部落格,可以漲姿勢。。。例如:

1、側重於語言程式設計和應用的廖雪峰

2、側重於高大上演算法和開源庫介紹的莫煩

第二,加深對機器學習演算法的理解。

個人理解:經典機器學習演算法,例如svm,邏輯回歸,決策樹,樸素貝葉斯,神經網路,adaboost等等,他們最本質的區別是分類思想(**y的表示式)不同,有的是基於概率模型,有的是動態規劃。表象的區別是最後的損失函式不同,有的是合頁損失函式,有的是交叉熵損失函式,有的是平方損失函式,有的是指數損失函式。當然上述的損失函式是經驗風險,對於結構風險需要加入正則化(l0,l1(lasso),l2(ridge))。而所謂的訓練其實就是損失函式的優化過程,這裡可以有不同的優化方法,這些方法並不是機器學習演算法的一部分,這屬於凸優化或者啟發式優化演算法。而不同的優化(訓練、學習)演算法效果也不同,突出的表現為

1、不同的優化演算法適應於不同的場景(大規模資料、較深較複雜網路、稀疏資料、收斂速率高)等

2、不同優化演算法可以解決特定問題:學習率固定不變、在極值點附近收斂緩慢、收斂波動較大等。

3、啟發式優化演算法可以用於尋找全域性最優點,避免陷入區域性最優點和鞍點,但收斂太慢。

今天總結梯度下降法及其改進演算法

第一部分是以前的疑惑:在推導梯度性下降法時,推導出類似牛頓法,可行性有待驗證。。。

本質就是:梯度下降法只說了下降的方向——最陡的方向,每一次下降多少並沒具體給出。而牛頓法或者我的推導中給出了具體下降多少,只是牛頓法是變數,即當前的函式值,而我的演算法是固定值。可以看看第二篇參考文章!

第二部分和第三部分是梯度下降法及其改進演算法的簡介:這裡只說一下適應的場景,具體推導建議看**或者書,部落格講的不樂觀

第四部分是以線性回歸為例,比較批量梯度下降和隨機梯度下降的區別:代價函式的區別

第五部分、直觀感受不同優化演算法的尋優過程

梯度下降法及其優化

1 梯度下降 2 面對的主要困難 3 分類 隨機梯度下降法 sgd 每次只使用乙個樣本 小批量隨機梯度下降法 mini batch sgd 使用小批量樣本 4 普通的小批量sgd 以下簡稱為sgd 的困難 其他困難 1 為什麼不使用牛頓法?2 動量法 momentum 適用於隧道型曲面 乙個方向很陡...

梯度下降法和隨機梯度下降法

批量梯度下降法 batch gradient descent 在更新引數時使用所有的樣本來進行更新 隨機梯度下降法 stochastic gradient descent 求梯度時沒有用所有的m個樣本的資料,而是僅僅選取乙個樣本j來求梯度。小批量梯度下降法 mini batch gradient d...

梯度下降法演算法核心

非調庫方法實現梯度下降法多元線性回歸 在高等數學中,我們學習了導數,泰勒展開等等,我們一定做過一類題 求最小值 極小值,其實就是在求我們該如何取引數,使得目標函式取得最小值。這個數學問題有著深厚的工程應用背景,比如 深度學習中,我們該如何取神經網路的權值,使得學習誤差最小?這裡的權值就是我們要求的引...