seq2seq相關資料加重點總結

rnn to lstm:

1.u,w,v這三個矩陣就是我們的模型的線性關係引數，它在整個rnn網路中是共享的。也正是因為是共享的，它體現了rnn的模型的「迴圈反饋」的思想。

從seq2seq 到 attention 簡介：

attention 帶公式的**:

1.在機器翻譯中，源語言和目標語言的句子序列都是不等長的，而原始的 n vs n 結構都是要求序列等長的。為此，我們有了 n vs m 結構，這種結構又被稱為encoder-decoder模型。

2.decoder根據中間狀態向量 c 和已經生成的歷史資訊y1，y2…yi-1去生成 t 時刻的單詞 yi .

3.例如翻譯：cat chase mouse，encoder-decoder 模型逐字生成：「貓」、「捉」、「老鼠」。在翻譯 mouse 單詞時，每乙個英語單詞對「老鼠」的貢獻都是相同的。如果引入了ａttention 模型，那麼 mouse 對於它的影響應該是最大的。

4.ａttention 模型的特點是 decoder 不再將整個輸入序列編碼為固定長度的中間語義向量ｃ，而是根據當前生成的新單詞計算新的 $c_$ ，使得每個時刻輸入不同的ｃ，這樣就解決了單詞資訊丟失的問題。

5.三種aij權重係數計算中score的計算方法，第一種設encoder隱層維度與decoder相等，第二種設encoder隱層維度與decoder隱層維度不等。

6.bahdanau等人提出的用attention，其核心內容是為輸入向量的每個單詞學習乙個權重。

純attention的模型：

英文原版：