神經網路各個部分功能表（持續更新中）

x_data:輸入資料

y_data:資料真實標籤

w：權重

b：偏量

神經元：wx_data+b

啟用函式σ() ：tanh() sigmoid() relu()

隱藏層輸出：output = σ(wx_data+b)

softmax()：主要用於分類網路的輸出層，使得每個輸出的概率在0-1之間，並且所有的概率和為1

epoch：迭代的次數，代表需要將資料集訓練的次數

batch：批量資料處理，代表每次餵入網路中進行梯度下降的資料的個數，而這樣需要餵入x_data_size/batch次才能完成乙個epoch

loss：損失函式，需要優化的乙個函式，通過改變w和b使得loss越小（即y_data-output）越小。

gradient descent：梯度下降，通過這種方式來更新引數w和b

欠擬合、正常擬合和過擬合。

欠擬合：模型不能很好的去擬合資料，也就是訓練時候的loss可能都比較大

正常擬合：訓練時loss和測試的loss很接近。

過擬合：訓練的太過了，訓練的時候loss很小，準確率很好，但是模型的泛化能力太弱了，在測試的時候準確率很低。

防止過擬合的方法：

1）增加資料集

2）代價函式中新增正則項 c=c』+正則項（引數w的函式）

3）dropout，訓練的時候隨機丟掉一些結點

優化器（梯度下降的優化演算法）：

1.隨機梯度下降、標準梯度下降和批處理梯度下降（這個在之前的部落格有寫過）

2.momentum：這個優化器的思想是當前的權值w的改變會受到上一次權值改變的影響，類似於小球滾動帶上了慣性，這樣可以加速小球向下滾動的速度。

3.adagrad：它是隨機梯度下降的一種延申演算法。其核心思想是對比較常簡的資料給予比較小的學習率去調整引數，對於比較罕見的資料給予比較大的學習率去調整引數。這個優化器適用於資料稀疏的資料集（比如乙個訓練集，其中有10000張是a類，1000張是b類，100張是c類。）這個演算法的優點在於它不需要人為的去調節學習率，學習率可以自動的調節。缺點是隨著迭代次數的增加，學習率會下降，並趨向於0.

4.rmsprop（root mean square）：這個優化器是借鑑了adagrad的思想，但是他只用到了前t-1次的梯度平方的平均值加上當前梯度的平方的和的開平方作為學習率的分母。這樣子，rmsprop不會出現學習率越來越低的情況，並且可以自己調節學習率。

5.adadelta：不需要設定預設學習率，不需要學習率就可以達到很好的效果。

6.adam：像adadelta和rmsprop一樣，adam也會儲存之前衰減的平方梯度，同時它也會儲存之前的衰減梯度。經過一些處理之後再使用類似adadelta和rmsprop的方式更新引數。

神經網路各個部分功能表（持續更新中）

神經網路各個部分的作用徹底理解神經網路

神經網路數學基礎卷積神經網路部分實戰訓練

神經網路各個網路引數設定原則

神經網路各個部分功能表（持續更新中）

神經網路各個部分的作用 徹底理解神經網路

神經網路數學基礎 卷積神經網路 部分實戰訓練

神經網路各個網路引數設定原則

相關推薦

神經網路各個部分的作用徹底理解神經網路

神經網路數學基礎卷積神經網路部分實戰訓練