seq2seq相關資料加重點總結

2021-09-25 02:08:35 字數 873 閱讀 2355

rnn to lstm:  

1.u,w,v這三個矩陣就是我們的模型的線性關係引數,它在整個rnn網路中是共享的。也正是因為是共享的,它體現了rnn的模型的「迴圈反饋」的思想。

從seq2seq 到 attention 簡介:

attention 帶公式的**:

1.在機器翻譯中,源語言和目標語言的句子序列都是不等長的,而原始的 n vs n 結構都是要求序列等長的。為此,我們有了 n vs m 結構,這種結構又被稱為encoder-decoder模型

2.decoder根據中間狀態向量 c 和已經生成的歷史資訊y1,y2…yi-1去生成 t 時刻的單詞 yi .

3.例如翻譯:cat chase mouse,encoder-decoder 模型逐字生成:「貓」、「捉」、「老鼠」。在翻譯 mouse 單詞時,每乙個英語單詞對「老鼠」的貢獻都是相同的。如果引入了attention 模型,那麼 mouse 對於它的影響應該是最大的。

4.attention 模型的特點是 decoder 不再將整個輸入序列編碼為固定長度的中間語義向量 c ,而是根據當前生成的新單詞計算新的 $c_$ ,使得每個時刻輸入不同的 c ,這樣就解決了單詞資訊丟失的問題。

5.三種aij權重係數計算中score的計算方法,第一種設encoder隱層維度與decoder相等,第二種設encoder隱層維度與decoder隱層維度不等。

6.bahdanau等人提出的用attention,其核心內容是為輸入向量的每個單詞學習乙個權重。

純attention的模型:

英文原版:

seq2seq模型詳解

在李紀為博士的畢業 中提到,基於生成的閒聊機械人中,seq2seq是一種很常見的技術。例如,在法語 英語翻譯中,的當前英語單詞不僅取決於所有前面的已翻譯的英語單詞,還取決於原始的法語輸入 另乙個例子,對話中當前的response不僅取決於以往的response,還取決於訊息的輸入。其實,seq2se...

Seq2Seq模型結構

seq2seq sequence to sequence 是乙個處理序列問題的模型,傳統的 rnn 或 lstm 只能處理 輸入及輸出是定長即 一對一或多對多的問題,而 seq2seq 則能處理一對多的問題,它也是 rnn 最重要的乙個變種 n vs m 輸入與輸出序列長度不同 編碼 解碼模型,主要...

seq2seq 對話,翻譯

4 seq2seq 總結 5 應用任務 seq2seq 模型的目的 通過乙個序列得到另乙個序列,例如 問答 翻譯 seq2seq 的整體思想 利用了 lstm 模型出自 sequence to sequence learning with neural networks 模型實現 基礎模型 將輸入的...