乾貨 LSTM詳解,關於LSTM的前生今世

2021-08-13 15:25:56 字數 430 閱讀 5286

最近在做lip reading領域的研究,設計到c3d和rnn的結合,於是仔細觀摩了下lstm的系列**,總結如下:

ppt總長98頁,內容包括:

1.conventional lstm(含bptt演算法的詳細講解)

2.forget gate的提出

3.peephole mechanism

4.encoder-decoder

5.gru

6.用於處理long-term和short-term資訊的gated feedback rnn

7.現在廣泛使用的attention mechanism,包括原始版本和修改版本

及其相應的參考文獻,看完,你一定會受益匪淺^_^。

2017-12-18更新:新增了關於《attention is all you need》(2017 ,nips)的理解

關於LSTM的units引數

lstm units,input shape 3,1 這裡的units指的是cell的個數麼?如果是,按照lstm原理這些cell之間應該是無連線的,那units的多少其意義是什麼呢,是不是相當於mlp裡面對應隱層的神經元個數,只是為了擴充套件系統的輸出能力 這個問題也困擾了我很久,後來終於明白了,...

單層LSTM和多層LSTM的輸入與輸出

rnn結構 對應的 為 中沒寫偏置 上圖是單層lstm的輸入輸出結構圖。其實它是由乙個lstm單元的乙個展開,如下圖所示 所以從左到右的每個lstm block只是對應乙個時序中的不同的步。在第乙個圖中,輸入的時序特徵有s個,長度記作 seq len,每個特徵是乙個c維的向量,長度記作 input ...

lstm訓練情感分析的優點 LSTM為何如此有效?

最近也遇到了一些跟lstm效能相關的情況,也說一點個人觀點吧。tl dr 我認為lstm比其他網路效能好的問題主要有這麼幾個特徵 屬於時序資料 有時間依賴性 並且要求全域性化處理 輸入和輸出的元素級別的對應上 比如單詞與單詞之間 可能有不小的時間跨度 資料不太短但也不會太長,例如小於1000個步長。...