神經網路基礎 為什麼要深層的網路

2021-09-28 12:47:15 字數 700 閱讀 9537

有人做了這樣乙個對比:在相同參數量的情況下,神經網路層數對最後模型結果的影響。

最後得出的結論為是:神經網路 tall + thin 的模型效果要好於fat + short 的效果。

為什麼會出現這樣的情況呢?

其實神經網路在設計過程中,其實是乙個模組化的過程

設想這樣乙個場景:現在需要做影象分類,標籤為4類:長頭髮男生,短頭髮男生,長頭髮女生,短頭髮女生。其中,長頭髮男生的資料比較少。

由於長頭髮的男生資料集較小,那麼其所對應的分類器就比較weak,對於這樣的問題,人通常會採取這樣的方法:

先分男、女,然後分別在男、女中分類長髮和短髮。

其實這就是神經網路的就是這樣的工作原理:前面層的每乙個神經元,可以看成乙個初期的分類器,而後面的層其實就利用了前面weak learner的結果,相當於上面問題:初期的男或女長髮或短髮的輸出。

所以,隱藏層上起到了乙個特徵提取或是降維的作用

神經網路為什麼要進行batch norm?

通常我們在使用資料之前,會對輸入資料做了標準化處理 處理後的任意乙個特徵在資料集中所有樣本上的均值為 0 標準差為 1。標準化處理輸入資料使各個特徵的分布相近 這往往更容易訓練出有效的模型。why?我也不知道 通常來說,資料標準化預處理對於淺層模型就足夠有效了。隨著模型訓練的進行,當每層中引數更新時...

神經網路深層網路實現

隨機初始化資料 確定迭代次數 進入迭代迴圈 前向傳播,主要目的是計算出al 分輔助函式的好處 計算cost 計算 dal 目的是初始化反向傳播的起點 反向傳播,主要目的是計算出grads 分輔助函式的好處 更新引數 達到了指定的迭代次數,退出迴圈 dropout正則化 應用 在計算機視覺中十分常見 ...

神經網路深層網路實現

隨機初始化資料 確定迭代次數 進入迭代迴圈 前向傳播,主要目的是計算出al 分輔助函式的好處 計算cost 計算 dal 目的是初始化反向傳播的起點 反向傳播,主要目的是計算出grads 分輔助函式的好處 更新引數 達到了指定的迭代次數,退出迴圈 dropout正則化 應用 在計算機視覺中十分常見 ...