神經網路設計過程

1.背景：

輸出 y 中，1.01 代表 0 類鳶尾得分，2.01 代表 1 類鳶尾得分，-0.66 代表 2 類鳶尾得分。通過輸出 y 可以看出數值最大(可能性最高)的是 1 類鳶尾，而不是標籤 0 類鳶尾。這是由於

最初的引數 w 和b 是隨機產生的，現在輸出的結

果是蒙的

為了修正這一結果，我們用損失函式，定義**值 y 和標準答案(標籤) y_ 的差距，損失函式可以定量的判斷當前這組引數 w 和b 的優劣，當損失函式最小時，即可得到最優 w 的值和b 的值。

損失函式的定義有多種方法，均方誤差就是一種常用的損失函式，它計算每個前向傳播輸出 y 和標準答案 y_ 的差求平方再求和再除以 n 求平均值，表徵了網路前向傳播推理結果和標準答案之間的差距。

通過上述對損失函式的介紹，其目的是尋找一組引數 w 和b 使得損失函式最

小。為達成這一目的，我們採用梯度下降的方法。損失函式的梯度表示損失函式對各引數求偏導後的向量，損失函式梯度下降的方向，就是是損失函式減小的方向。梯度下降法即沿著損失函式梯度下降的方向，尋找損失函式的最小值，從而得到最優的引數。梯度下降法涉及的公式如下

上式中，lr 表示學習率，是乙個超引數，表徵梯度下降的速度。如學習率設定過小，引數更新會很慢，如果學習率設定過大，引數更新可能會跳過最小值。

上述梯度下降更新的過程為反向傳播，下面通過例子感受反向傳播。利用如下公式對引數 w 進行更新。

設損失函式為 (w+1)2 ，則其對 w 的偏導數為 2w+ 2 。設 w 在初始化時被隨機初始化為 5，學習率設定為 0.2。則我們可按上述公式對 w 進行更新：

第一次引數為 5，按上式計算即5 − 0.2×(2×5 + 2) =2.6。

同理第二次計算得到引數為 1.16，第三次計算得到引數為 0.296……

畫出損失函式 2 (w+1) 的影象，可知 w = −1時損失函式最小，我們反向傳播

優化引數的目的即為找到這個使損失函式最小的 w = −1值