RNN系列之六 LSTM

2021-08-17 10:00:42 字數 794 閱讀 9310

lstm的基本結構如下圖:

包含三個門控,乙個更新門(輸入門)γ

u,乙個遺忘門γ

f,乙個輸出門γo

。更新門:將新的資訊選擇性的更新到細胞狀態中。

遺忘門:將細胞狀態中的資訊選擇性的遺忘。

輸出門:確定細胞狀態與輸入的哪個部分將輸出出去。

具體數學表示式為:

在很多lstm版本中,幾個門值的計算不只取決於輸入x

和a值,有時也可以**上乙個細胞輸入的c

值,這叫窺視孔連線(peephole connection)

---**andrew ng深度學習課件

LSTM及RNN簡單總結

rnn可以記住之前的資訊,將當前資訊聯絡到之前的資訊,比如 the cloud are in the sky 最後的詞,我們並不需要其他的上下文就能知道是sky,這種場景中,相關資訊和 距離比較近,因此rnn可以有效利用先前的資訊。但是當資訊距離比較長,比我我們看的一些電影,在前部份埋下伏筆,最後破...

LSTM與RNN的區別

1.rnn rnn能夠處理一定的短期依賴,但無法處理長期依賴問題。因為當序列較長時,序列後部的梯度很難反向傳播到前面的序列,這就產生了梯度消失問題。當然,rnn也存在梯度 問題,但這個問題一般可以通過梯度裁剪 gradient clipping 來解決。rnn網路結構如下 ht 為timestep ...

LSTM為什麼比RNN好

來自知乎大佬towser的回答,比較深刻,也加了點自己的注釋,侵刪 lstm 能解決梯度消失 梯度 是對 lstm 的經典誤解,rnn 中的梯度消失 梯度 和普通的 mlp 或者深層 cnn 中梯度消失 梯度 的含義不一樣。mlp cnn 中不同的層有不同的引數,各是各的梯度 而 rnn 中同樣的權...