神經網路與深度學習筆記 Chapter 3

交叉熵是用於解決使用二次代價函式時當單個神經元接近飽和的時候對權重和bias權重學習的影響。

這個公式可以看出，當神經元飽和的時候，sigma的偏導接近於0，w的學習也會變小。但是應用交叉熵作為代價函式的話，只有當所有的神經元接近0或者1的時候才會出現這種情況。它解決了初始化w和bias時壞的w和bias帶來的影響。

交叉熵對w求偏導：

，，，，有

最後得出:

由該公式可以看出，只有大部分樣例的輸出接近期望值時，w的學習才會變緩。bias同理。

上面的討論只針對有乙個神經元的網路。

如果代價函式是交叉熵函式，那麼對應的bp1為:

bp4為

，可以看出，該公式中消除了delta對z的偏導。

但是，對於線性神經元且

，二次代價函式的誤差為

，從而有：

這說明當神經元是線性的時候，就不存在學習率下降的情況了。與此同時，這個時候神經元的誤差可以稱為是a與期望值的差。

過度擬合在神經網路中的表現是，當訓練週期太長時，對測試集的準確率一直在搖擺，而訓練集的損失（cost）在一直降低，這個時候就相當於網路在記住訓練集中的特性，而不是進行更具一般性的學習。所以我們需要知道過擬合什麼時候發生，學習降低過擬合的影響的技術。

一般來說減少過擬合的方法之一就是增加訓練集的大小，但是有時候訓練資料的獲取並不是那麼容易。

另乙個減少過擬合的方法是正則化，本章將講述正則化技術的一種權重衰減（weight decay)或l2正則化。該方法是新增乙個正則項（regularization term)到損失函式中，新增正則項的損失函式如下所示：

或

其中叫做正則化引數( regularization parameter)，而n一般是訓練集的大小，注意正則項中不包含bias。