seq2seq 對話,翻譯

2021-10-16 04:26:33 字數 906 閱讀 9844

4 seq2seq 總結

5 應用任務

seq2seq 模型的目的:通過乙個序列得到另乙個序列,例如:問答、翻譯

seq2seq 的整體思想:利用了 lstm

模型出自**: sequence to sequence learning with neural networks

模型實現(基礎模型):

將輸入的序列通過 encoder 編碼為定長向量 c

再將 c 輸入decoder 解碼輸出序列

左邊是lstm作為encoder,右邊是lstm作為decoder

訓練時為監督

**時為無監督

在基礎的seq2seq模型上,會存在幾種問題需要解決:

輸入的序列長度不定長,很難用 c 來表示,直接編譯會導致梯度消失

teacher forcing 用於訓練階段,是上乙個神經元得出的結果不一定是正確的,會根據一定比例使用上個神經元輸出的結果

在注意力機制下,decoder 的輸入就不是固定的上下文向量 c 了,而是會根據當前翻譯的資訊,計算當前的 c

seq2seq 能使用長度不同長度的輸入和輸出序列,可以適用很多任務

文中應用任務:

對話系統

機器翻譯

閱讀理解

seq2seq模型詳解

在李紀為博士的畢業 中提到,基於生成的閒聊機械人中,seq2seq是一種很常見的技術。例如,在法語 英語翻譯中,的當前英語單詞不僅取決於所有前面的已翻譯的英語單詞,還取決於原始的法語輸入 另乙個例子,對話中當前的response不僅取決於以往的response,還取決於訊息的輸入。其實,seq2se...

Seq2Seq模型結構

seq2seq sequence to sequence 是乙個處理序列問題的模型,傳統的 rnn 或 lstm 只能處理 輸入及輸出是定長即 一對一或多對多的問題,而 seq2seq 則能處理一對多的問題,它也是 rnn 最重要的乙個變種 n vs m 輸入與輸出序列長度不同 編碼 解碼模型,主要...

介紹 Seq2Seq 模型

2019 09 10 19 29 26 問題描述 什麼是seq2seq模型?seq2seq模型在解碼時有哪些常用辦法?問題求解 seq2seq模型是將乙個序列訊號,通過編碼解碼生成乙個新的序列訊號,通常用於機器翻譯 語音識別 自動對話等任務。在seq2seq模型提出之前,深度學習網路在影象分類等問題...