SGD,Adam,AdaGrad等優化演算法

2021-08-15 02:11:28 字數 638 閱讀 5492

sgd

無動量,下降慢,會陷入區域性最優點

sgd with momentum

有乙個動量,一般值為0.9,即0.9的程度考慮以往的方向,0.1程度考慮當前梯度方向。類似高速上開車,大方向不變的同時,微調方向。

sgd_nag

萬一你陷入區域性最優怎麼辦,周圍都是略高的山,所以要爬上去,才能看到更廣闊的的世界

因此,某個時刻,不計算當前的梯度方向,跟著歷史動量走一步,走完之後再根據下一點的梯度方向計算最終的累計動量。

自適應學習率的優化方法

adagrad

二階動量與之對應。對於經常更新的引數,希望其不被單個樣本影響太大,對於偶然更新的引數,希望能從改樣本上多學一點。

用二階動量來衡量歷史更新頻率。引數更新越頻繁,二階動量越大,學習率就越小。因此該方法在稀疏資料場景中表現較好。但是隨著訓練進行,可能使得學習率下降至0。可能最後即使有資料也沒法學到必要知識。

adadelta/rmsprop

只關注過去一段時間視窗下降梯度,而不是全部歷史梯度。避免了二階動量持續增加導致訓練過程提前結束的問題

adam是把一階動量跟二階動量聯合起來。優化演算法當中的兩個超引數就是分別控制一階跟二階的動量

nadam就是在adam的基礎上加了nesterov。防止陷入區域性極小值

「等燈 等燈等燈」, 和 的區別

小記錄。是相等操作符,是全等操作符 的判斷標準為兩個運算元相等則返回true,的判斷標誌是兩個運算元未經轉換就相等則返回true 相等操作符的轉換規則 如果有乙個運算元是布林值,則在比較相等性之前先將其轉換為數值,false轉換為0,而true轉換為1 乙個運算元是字串,另乙個運算元是數值,則在比較...

等保03 等保測評

差分整改 重點 等級測評 等保專案交付存在的問題 等級保護工作角色分工 等級保護整體流程介紹 各個階段產出的文件 定級備案過程及工作內容 依據定級指南確定目標系統的安全保護等級,同時也是對安全保護等級確定過程的說明。1.目標業務系統描述 系統的基本功能 系統的責任部門 系統的網路結構及部署情況 採取...

等專案通知????????????????

自從五一回來,我的小球基本竣工了,工作的緊張度明顯降低了。程式編的沒有任務緊張時候認真了,不過這兩天有所調整,態度上有點起色。五一回來的任務就是把小球給改好。最主要的傘個方面,乙個是記憶體洩露,乙個是俯角和仰角,乙個是消除鍵盤控制的卡殼。磨磨唧唧地改了一周多,總算都改完了。記憶體洩露發現是有個地方n...