(譯) LSTM 網路原理介紹

2021-08-15 20:48:59 字數 1728 閱讀 2685

上述兩圖分別為閉環結構和閉環展開結構

rnn相對傳統的ann網路結構實現了資訊的保留,具有一定的記憶功能。可以將過去的資訊應用到當前的任務中。

為完成當前任務如果僅僅需要短期的資訊而不需要長期的資訊可以使用rnn。但是如果如果任務需要更多的上下文資訊,僅僅依靠少量的過去資訊無法完成準確的**。也就是過去資訊和當前任務存在較大的跳動,甚至需要未來的資訊才能完成**。這時經典的rnn就無法滿足需要(

why???

用梯度下降學習長期依賴模型是困難的)而需要特殊的時間序列模型lstm。lstms 就是用來解決長期依賴問題,這類模型可以記住長期資訊。

經典的rnn模型中的啟用函式可能就是乙個簡單的tanh函式,但是lstms引入了四個門結構,具有增加或者移除資訊狀態的功能。門限可以有選擇的讓資訊通過,它是由sigmoid神經網路層和pointwise乘法操作構成的。sigmoid層輸入數值0-1 代表可以通過的比例,輸入為0時代表不允許通過,輸出為1時代表允許全部通過。

x 代表輸入; h代表輸出;c 代表狀態其大小是[h,x]

1、  forget gate 忘記門:

忘記門輸入是ht-1和xt,輸出是ft(介於0-1),ft作用於ct-1。

當ft 為1 時,代表完全保留該值;

當ft 為0時, 代表完全捨去該值

2、  input gate 輸入門:

儲存什麼樣的新資訊包括兩步,第一步輸入門決定哪些值可以更新,第二步tanh層創造候選向量

it是sigmoid函式輸出結果表示是否產生輸入,其取值範圍是0-1

ct~是新產生的候選向量

忘記門ft乘ct-1 :忘掉決定忘掉的早期資訊

其結果加上it*ct~(候選向量通過it縮放後表示多大程度上更新狀態值)

通過忘記門和輸入門的組合可以表達出這樣的資訊:多大程度上忘記舊的資訊以及多大程度上更新新的資訊

output gate 輸出門:

首先sigmoid函式決定輸出的縮放比例ot,然後cell 狀態通過tanh函式,其結果與ot相乘。

lstms 變形之增加窺視孔的lstm

在每個sigmoid函式的輸入中增加cell的內容

lstms 變形之取消輸入門

用1-ft 代替it 也就是當發生忘記的時候才產生輸入,否則不產生輸入

lstm原理 長短期記憶網路LSTM

上兩小節我們主要講述了迴圈神經網路rnn,但是儘管 rnn 被設計成可以利用歷史的資訊來 當前的決策,例如使用之前出現的單詞來加強對當前單詞的理解,但是 rnn決策的主要還是最後輸入的一些訊號,更早之前的訊號會隨著時間的推遲而變得強度越來越低,它對後續的影響越來越弱。這樣就會給rnn帶來了新的技術挑...

lstm原理 LSTM原理及實踐(一) 理論

lstm long short term memory 算是時序模型中的比較常用也比較好的一種模型。在提到lstm之前,不得不說一下rnn recurrent neural network 其實就是把上一次輸出作為下一次輸入 如圖 可以看到,在每乙個時間點tn的總輸入都是上乙個tn 1時刻的輸出 這...

LSTM入門介紹

我們先來看看基本的lstm示意圖 為了解決記憶只是基於 的線性相加造成學習能力弱,引入了input gate和output gate,控制不同時序記憶的影響因子。下面來看看具體的lstm前向傳導過程 輸入資訊前向傳播 以下內容出自 understanding lstm networks lstm的第...