梯度下降之MiniBatch與並行化方法

問題的引入：

考慮乙個典型的有監督機器學習問題，給定m個訓練樣本s=，通過經驗風險最小化來得到一組權值w，則現在對於整個訓練集待優化目標函式為：

其中引入l2正則，即在損失函式中引入

注意單個樣本引入損失為（並不用除以m）：

正則化的解釋

這裡的正則化項可以防止過擬合，注意是在整體的損失函式中引入正則項，一般的引入正則化的形式如下：

其中l(w)為整體損失，這裡其實有：

這裡的 c即可代表

下面給乙個二維的示例圖：我們將模型空間限制在w的乙個l1-ball 中。為了便於視覺化，我們考慮兩維的情況，在(w1, w2)平面上可以畫出目標函式的等高線，而約束條件則成為平面上半徑為c的乙個 norm ball 。等高線與 norm ball 首次相交的地方就是最優解

可以看到，l1-ball 與l2-ball 的不同就在於l1在和每個座標軸相交的地方都有「角」出現，而目標函式的測地線除非位置擺得非常好，大部分時候都會在角的地方相交。注意到在角的位置就會產生稀疏性，例如圖中的相交點就有w1=0，而更高維的時候（想象一下三維的l1-ball 是什麼樣的？）除了角點以外，還有很多邊的輪廓也是既有很大的概率成為第一次相交的地方，又會產生稀疏性，相比之下，l2-ball 就沒有這樣的性質，因為沒有角，所以第一次相交的地方出現在具有稀疏性的位置的概率就變得非常小了。

batch gradient descent

有了以上基本的優化公式，就可以用gradient descent 來對公式進行求解，假設w的維度為n，首先來看標準的batch gradient descent演算法：

這裡的批梯度下降演算法是每次迭代都遍歷所有樣本，由所有樣本共同決定最優的方向。

stochastic gradient descent(sgd)隨機梯度下降

隨機梯度下降就是每次從所有訓練樣例中抽取乙個樣本進行更新，這樣每次都不用遍歷所有資料集，迭代速度會很快，但是會增加很多迭代次數，因為每次選取的方向不一定是最優的方向.

repeat until convergency{

random choice j from all m training example：

mini-batch gradient descent

這是介於以上兩種方法的折中，每次隨機選取大小為b的mini-batch(brepeat until convergency{

for j=1;j

最後看並行化的sgd：

若最後的v達到收斂條件則結束執行，否則回到第乙個for迴圈繼續執行，該方法同樣適用於minibatch gradient descent。

梯度下降之MiniBatch與並行化方法

2 1 Mini batch 梯度下降

深度學習（7） Mini batch梯度下降法

梯度下降隨機梯度下降批梯度下降

梯度下降之MiniBatch與並行化方法

2 1 Mini batch 梯度下降

深度學習（7） Mini batch梯度下降法

梯度下降 隨機梯度下降 批梯度下降

相關推薦

梯度下降隨機梯度下降批梯度下降