python實現隨機梯度下降 SGD

2021-07-27 10:25:52 字數 1630 閱讀 3044

使用神經網路進行樣本訓練,要實現隨機梯度下降演算法。這裡我根據麥子學院彭亮老師的講解,總結如下,(神經網路的結構在另一篇部落格中已經定義):

def

sgd(self, training_data, epochs, mini_batch_size, eta, test_data=none):

if test_data:

n_test = len(test_data)#有多少個測試集

n = len(training_data)

for j in xrange(epochs):

random.shuffle(training_data)

mini_batches = [

training_data[k:k+mini_batch_size]

for k in xrange(0,n,mini_batch_size)]

for mini_batch in mini_batches:

self.update_mini_batch(mini_batch, eta)

if test_data:

print

"epoch : /".format(j, self.evaluate(test_data),n_test)

else:

print

"epoch complete".format(j)

其中training_data是訓練集,是由很多的tuples(元組)組成。每乙個元組(x,y)代表乙個例項,x是影象的向量表示,y是影象的類別。

epochs表示訓練多少輪。

mini_batch_size表示每一次訓練的例項個數。

eta表示學習率。

test_data表示測試集。

比較重要的函式是self.update_mini_batch,他是更新權重和偏置的關鍵函式,接下來就定義這個函式。

def

update_mini_batch

(self, mini_batch,eta):

nabla_b = [np.zeros(b.shape) for b in self.biases]

nabla_w = [np.zeros(w.shape) for w in self.weights]

for x,y in mini_batch:

delta_nabla_b, delta_nable_w = self.backprop(x,y)#目標函式對b和w的偏導數

nabla_b = [nb+dnb for nb,dnb in zip(nabla_b,delta_nabla_b)]

nabla_w = [nw+dnw for nw,dnw in zip(nabla_w,delta_nabla_w)]#累加b和w

#最終更新權重為

self.weights = [w-(eta/len(mini_batch))*nw for w, nw in zip(self.weights, nabla_w)]

self.baises = [b-(eta/len(mini_batch))*nb for b, nb in zip(self.baises, nabla_b)]

這個update_mini_batch函式根據你傳入的一些資料進行更新神經網路的權重和偏置。

python實現隨機梯度下降法

一 為什麼要提出隨機梯度下降演算法 也就是說每次更新權值 二 核心思想 對於權值的更新不再通過遍歷全部的資料集,而是選擇其中的乙個樣本即可 對於程式設計師來說你的第一反應一定是 在這裡需要乙個隨機函式來選擇乙個樣本,不是嗎?一般來說其步長的選擇比梯度下降法的步長要小一點,因為梯度下降法使用的是準確梯...

梯度下降 隨機梯度下降 批梯度下降

下面的h x 是要擬合的函式,j 損失函式,theta是引數,要迭代求解的值,theta求解出來了那最終要擬合的函式h 就出來了。其中m是訓練集的記錄條數,j是引數的個數。梯度下降法流程 1 先對 隨機賦值,可以是乙個全零的向量。2 改變 的值,使j 按梯度下降的方向減少。以上式為例 1 對於我們的...

stanford 梯度 梯度下降,隨機梯度下降

一 梯度gradient 在標量場f中的一點處存在乙個向量g,該向量方向為f在該點處變化率最大的方向,其模也等於這個最大變化率的數值,則向量g稱為標量場f的梯度。在向量微積分中,標量場的梯度是乙個向量場。標量場中某一點上的梯度指向標量場增長最快的方向,梯度的長度是這個最大的變化率。更嚴格的說,從歐氏...