深度學習神經網路結構

線性可分

線性不可分

判斷一堆資料是否能夠線性可分的關鍵在於所在維度。

從線性不可分→線性可分，可採用公升高維度的方式。

線性可分和線性不可分的辯證統一思想：在低維空間中資料線性不可分，通過對映到高維空間是線性可分，回到低維空間又是線性不可分的，兩者統一而矛盾。

線性不可分→線性可分

同時參考深度學習領域最常用的10個啟用函式，一文詳解數學原理及優缺點

特點:能夠把輸入的連續實值變換為0和1之間的輸出。

缺點:

在深度神經網路中梯度反向傳遞時導致梯度**和梯度消失，其中梯度**發生的概率非常小，而梯度消失發生的概率比較大。如果我們初始化神經網路的權值為 [0,1] 之間的隨機值，由反向傳播演算法的數學推導可知，梯度從後向前傳播時，每傳遞一層梯度值都會減小為原來的0.25倍，如果神經網路隱層特別多，那麼梯度在穿過多層後將變得非常小接近於0，即出現梯度消失現象；當網路權值初始化為 ( 1 , + ∞ ) 區間內的值，則會出現梯度**情況。

sigmoid 的 output 不是0均值（即zero-centered）。這是不可取的，因為這會導致後一層的神經元將得到上一層輸出的非0均值的訊號作為輸入。產生的乙個結果就是：如x

>0,

f=wt

x+bx

>0,

f=wt

x+bx>0 ,f= w^tx+bx>0, f=w^tx+b

x>0,

f=wt

x+bx

>0,

f=wt

x+b，那麼對w

ww求區域性梯度則都為正，這樣在反向傳播的過程中w

ww要麼都往正方向更新，要麼都往負方向更新，導致有一種**的效果，使得收斂緩慢。

解析式中含有冪運算，計算機求解時相對來講比較耗時。對於規模比較大的深度網路，這會較大地增加訓練時間。

讓損失最小化，也就是讓輸出和標籤之間更加靠近。

交叉熵損失函式（部分**交叉熵損失函式原理詳解）

iou損失函式

i ou

=∣a∩

b∣∣a

∪b∣l

oss=

1−io

uiou=\frac\\ loss=1-iou

iou=∣a

∪b∣∣

a∩b∣

los

s=1−

iouiou

iouio

u是真實框和**框的交集和並集之比，當它們完全重合時，iou

iouio

u就是1，那麼對於los

sloss

loss

來說，los

sloss

loss

是越小越好，說明他們重合度高，所以iou

loss

iou loss

ioulos

s就可以簡單表示為 1−i

ou1- iou

1−io

u批量梯度下降法(bgd)(每批樣本計算一次)

隨機梯度下降法(sgd)(每批樣本隨機抽樣計算一次)

nag演算法

sgd-m 的步長計算了當前梯度（短藍向量）和動量項（長藍向量）。然而，既然已經利用了動量項來更新，那不妨先計算出下一時刻θ

θθ的近似位置（棕向量），並根據該未來位置計算梯度（紅向量），然後使用和sgd-m中相同的方式計算步長（綠向量）。這種計算梯度的方式可以使演算法更好的「**未來」，提前調整更新速率。

rmsprop演算法

adadelta演算法(結合了adagrad、rmsprop)

adam演算法(結合了adadelta和rmsprop)

我們可以看到不同演算法在損失面等高線圖中的學習過程，它們均同同一點出發，但沿著不同路徑達到最小值點。

其中 adagrad、adadelta、rmsprop 從最開始就找到了正確的方向並快速收斂；sgd 找到了正確方向但收斂速度很慢；sgd-m 和 nag 最初都偏離了航道，但也能最終糾正到正確方向，sgd-m 偏離的慣性比 nag 更大。

這裡展現了不同演算法在鞍點處的表現。

sgd、sgd-m、nag 都受到了鞍點的嚴重影響，儘管後兩者最終還是逃離了鞍點；而 adagrad、rmsprop、adadelta 都很快找到了正確的方向。

深度學習神經網路結構

深度學習（二）常用神經網路結構

神經網路結構

卷積神經網路結構

深度學習 神經網路結構

深度學習（二） 常用神經網路結構

神經網路結構

卷積神經網路結構

相關推薦

深度學習神經網路結構

深度學習（二）常用神經網路結構