為什麼神經網路會有很多區域性最優點?

2022-05-04 04:33:09 字數 655 閱讀 3650

這其實是乙個理解上的誤區:

陷入區域性最優其實不是神經網路的問題,在乙個非常高維的空間中做梯度下降,這時的local minimum是很難形成的,因為區域性最小值要求函式在所有維度上都是區域性最小的。實際情況是,函式會落在乙個saddle-point上。 

在saddle-point上會有一大片很平坦的平原,讓梯度幾乎為0,導致無法繼續下降。

但是saddle-point並不是乙個區域性極小值點,因為它還是有可以下降的方向,只不過現在這些優化演算法都很難去找到這個方向罷了。

通過以下圖來感受以下saddle-points

nn的設計啟用函式是為了引入非線性變換,凸不凸都可以。

其次在神經網路的變換中,其實是對原始空間的不斷的擠壓或者拉伸,但是不會切斷。tanh這個啟用函式能夠保證原始空間和變換後的空間的同胚性。(有待研究)colah的部落格中提到的。

ref:

[1]dauphin y, pascanu r, gulcehre c, et al. identifying and attacking the saddle point problem in high-dimensional non-convex optimization[j]. mathematics, 2014, 111(6 pt 1):2475-2485.

[2]

訓練最優神經網路

在談論改善模型之前,首先一點是要考慮資料問題。在資料ok的情況下,我們按照吳恩達老師的建議來改善模型。如果誤差過高,我們首先可以考慮把我們現有的神經網路深度加深,以及新增更多的神經元,或許能夠改善學習效果。我們也可以考慮迭代更多的epoch,我們也可以對學習率做出調整,往往更小的學習率能有更好的效果...

神經網路 什麼叫神經網路

我們用簡潔易懂的語言了解下什麼叫人工智慧神經網路,假如有如下乙個神經網路。訓練完成後,隨便輸入乙個,這個網路需要識別是貓或狗或同時不是貓和狗。如下面輸入一張沙皮狗的,神經網路識別是一條狗。如果輸入下面輸入一張狗的,神經網路識別也是一條狗。如果輸入下面輸入一張貓的,神經網路識別是乙隻貓。如果輸入下面輸...

模組說和神經網路學說 為什麼都說神經網路是個黑箱?

神經網路黑箱的意思是我們知其然,不知其所以然,相關理論比較缺乏。別看神經網路相關 汗牛充棟,但是大部分類似於technical report,告訴你我這麼做效果不錯,具體原因不知道,只能 guess 所以很容易被打臉。這一篇文章講得挺好的,他用光學類別深度學習,非常形象。從結構來看,無論是深度學習還...