seq2seq以及Attention機制

2021-08-08 02:45:54 字數 786 閱讀 1963

rnn 由一系列相同的網路構成(圖 1 中的長方形表示乙個網路),上乙個詞語的向量表示作為計算下乙個網路的輸入,如此迴圈。整個句子每個詞軍計算完成, 便得到了乙個句子的語意向量。

所謂encoder-decoder模型,又叫做編碼-解碼模型。這是一種應用於seq2seq問題的模型。

那麼seq2seq又是什麼呢?簡單的說,就是根據乙個輸入序列x,來生成另乙個輸出序列y。seq2seq有很多的應用,例如翻譯,文件摘取,問答系統等等。在翻譯中,輸入序列是待翻譯的文字,輸出序列是翻譯後的文字;在問答系統中,輸入序列是提出的問題,而輸出序列是答案。

為了解決seq2seq問題,有人提出了encoder-decoder模型,也就是編碼-解碼模型。所謂編碼,就是將輸入序列轉化成乙個固定長度的向量;解碼,就是將之前生成的固定向量再轉化成輸出序列。

encoder-decoder模型雖然非常經典,但是侷限性也非常大。最大的侷限性就在於編碼和解碼之間的唯一聯絡就是乙個固定長度的語義向量c。也就是說,編碼器要將整個序列的資訊壓縮進乙個固定長度的向量中去。但是這樣做有兩個弊端,一是語義向量無法完全表示整個序列的資訊,還有就是先輸入的內容攜帶的資訊會被後輸入的資訊稀釋掉,或者說,被覆蓋了。輸入序列越長,這個現象就越嚴重。這就使得在解碼的時候一開始就沒有獲得輸入序列足夠的資訊, 那麼解碼的準確度自然也就要打個折扣了。

seq2seq模型詳解

在李紀為博士的畢業 中提到,基於生成的閒聊機械人中,seq2seq是一種很常見的技術。例如,在法語 英語翻譯中,的當前英語單詞不僅取決於所有前面的已翻譯的英語單詞,還取決於原始的法語輸入 另乙個例子,對話中當前的response不僅取決於以往的response,還取決於訊息的輸入。其實,seq2se...

Seq2Seq模型結構

seq2seq sequence to sequence 是乙個處理序列問題的模型,傳統的 rnn 或 lstm 只能處理 輸入及輸出是定長即 一對一或多對多的問題,而 seq2seq 則能處理一對多的問題,它也是 rnn 最重要的乙個變種 n vs m 輸入與輸出序列長度不同 編碼 解碼模型,主要...

seq2seq 對話,翻譯

4 seq2seq 總結 5 應用任務 seq2seq 模型的目的 通過乙個序列得到另乙個序列,例如 問答 翻譯 seq2seq 的整體思想 利用了 lstm 模型出自 sequence to sequence learning with neural networks 模型實現 基礎模型 將輸入的...