指數加權平均和momentum梯度下降

2021-08-11 06:34:35 字數 1437 閱讀 3653

開頭先以乙個例子引入指數加權平均

假設以下是倫敦某年365天的天氣:

藍點是每一天的溫度, vt表示每一天指數加權後的溫度,連線這些點後,也就有了這條紅色的彎曲的線,為什麼我們要使用指數加權呢?我的理解是讓連線的曲線更加平滑,讓每天溫度的變化幅度變小一點,因為每一天的加權溫度,總是會加上前一天的溫度。

1.加權係數不同,導致的結果不同

此時我們看到等式右邊的v前面有乙個加權係數0.9,不妨把它普遍化為白塔,上面的式子也就變成了下面的式子,白塔等於0.9時,某一天的溫度我們相當於平均了它之前的10天的溫度。白塔等於0.98時,相當於平均了它之前50天的溫度。白塔等於0.5時,相當於平均了它之前兩天的溫度。當然,我這裡的平均並不是說平均數,而是一種加權平均,在後面我會給予解釋。可以看到,紅線是白塔等於0.9,綠線是白塔等於0.98,黃線是白塔等於0.5,因為它是平均了之前兩天的溫度,所以曲線有很大的浮動,並不是很平滑,而藍線則是平均了50天的溫度,曲線特別平滑。這裡為什麼說白塔等於0.98時,平均了前50天的溫度,後面會給出解釋。

2.詳解加權平均

此處我們把v100,也就是第100天溫度的加權平均拆開,得到了下面很長的式子,當白塔等於0.9時,注意下面v100右邊的長等式,0.9的10次方等於0.35,大概等於

3.上面的式子其實我們可以寫在乙個式子裡,用迴圈則可以實現。看下圖:

4.momentum梯度下降

momentum梯度下降基本思想就是計算指數的加權平均數,並利用該梯度來更新權重。下面我將詳細闡述:

由指數加權平均,我們引入momentum梯度下降,先是前向計算,然後計算損失函式,在計算反向,計算出dw ,db,用來更新w,b這是以往普通梯度下降的做法,此處我們並沒有向之前那樣w=w-a*dw,b=b-a*db,而是對dw,db進行了加權平均為vdw,vdb。當我們想向中間最小值出發時,我們希望較少在縱軸上的擺動,或者說,擺動的幅度盡量小,這樣才能快速的到達中間最小值,此時看藍色的線,是普通梯度下降法。對於某乙個時間t,  vdw是對之前的多個時間的加權平均,因此在這麼多時間內縱軸上出現的不同方向上的值會相互抵消,而橫軸上一直向前,也就實現了縱軸上幅度減小,橫軸不斷向前,則比之前普通的梯度下降要快的多,也就時我們這條紅色的線。然後使用dw的加權平均來更新w.

指數加權移動平均

在學習吳恩達深度學習課程時,遇到 指數加權移動平均 這一概念,看似簡單,實則深奧。本文通過乙個excel示例,加深對其理解。以下為2021年2月份上海市日最高氣溫 表對應的折線圖。可以看出,折線圖中的溫度曲線起伏較大,十分 不平滑 那麼,有沒有辦法讓其更平滑呢?可以考慮使用指數加權移動平均法。注 e...

指數加權移動平均

加權移動平均法 是對觀察值分別給予不同的權數,按不同權數求得移動平均值,並以最後的移動平均值為基礎,確定 值的方法。採用加權移動平均法,是因為觀察期的近期觀察值對 值有較大影響,它更能反映近期變化的趨勢。指數移動加權平均法 是指各數值的加權係數隨時間呈指數式遞減,越靠近當前時刻的數值加權係數就越大。...

通俗解釋指數加權平均

前言 在深度學習優化演算法中,我們會涉及到指數加權平均這個概念,下面我將通過例子來一步一步引出這個概念。平均數求法 比如我們現在有100天的溫度值,要求這100天的平均溫度值。24,25,24,26,34,28,33,33,34,35 32。通過上面的公式就可以直接求出10天的平均值。而我們要介紹的...