batch size知識詳解

batch 的選擇，首先決定的是下降的方向。如果資料集比較小，完全可以採用全資料集（ full batch learning ）的形式，這樣做至少有 2 個好處：其一，由全資料集確定的方向能夠更好地代表樣本總體，從而更準確地朝向極值所在的方向。其二，由於不同權重的梯度值差別巨大，因此選取乙個全域性的學習率很困難。 full batch learning 可以使用 rprop 只基於梯度符號並且針對性單獨更新各權值。

對於更大的資料集，以上 2 個好處又變成了 2 個壞處：其一，隨著資料集的海量增長和記憶體限制，一次性載入所有的資料進來變得越來越不可行。其二，以 rprop 的方式迭代，會由於各個 batch 之間的取樣差異性，各次梯度修正值相互抵消，無法修正。這才有了後來 rmsprop 的妥協方案。

當然可以，這就是批梯度下降法（mini-batches learning）。因為如果資料集足夠充分，那麼用一半（甚至少得多）的資料訓練算出來的梯度與用全部資料訓練出來的梯度是幾乎一樣的。