seq2seq以及Attention機制

rnn 由一系列相同的網路構成（圖 1 中的長方形表示乙個網路），上乙個詞語的向量表示作為計算下乙個網路的輸入，如此迴圈。整個句子每個詞軍計算完成，便得到了乙個句子的語意向量。

所謂encoder-decoder模型，又叫做編碼-解碼模型。這是一種應用於seq2seq問題的模型。

那麼seq2seq又是什麼呢？簡單的說，就是根據乙個輸入序列x，來生成另乙個輸出序列y。seq2seq有很多的應用，例如翻譯，文件摘取，問答系統等等。在翻譯中，輸入序列是待翻譯的文字，輸出序列是翻譯後的文字；在問答系統中，輸入序列是提出的問題，而輸出序列是答案。

為了解決seq2seq問題，有人提出了encoder-decoder模型，也就是編碼-解碼模型。所謂編碼，就是將輸入序列轉化成乙個固定長度的向量；解碼，就是將之前生成的固定向量再轉化成輸出序列。

encoder-decoder模型雖然非常經典，但是侷限性也非常大。最大的侷限性就在於編碼和解碼之間的唯一聯絡就是乙個固定長度的語義向量c。也就是說，編碼器要將整個序列的資訊壓縮進乙個固定長度的向量中去。但是這樣做有兩個弊端，一是語義向量無法完全表示整個序列的資訊，還有就是先輸入的內容攜帶的資訊會被後輸入的資訊稀釋掉，或者說，被覆蓋了。輸入序列越長，這個現象就越嚴重。這就使得在解碼的時候一開始就沒有獲得輸入序列足夠的資訊，那麼解碼的準確度自然也就要打個折扣了。

seq2seq以及Attention機制

seq2seq模型詳解

Seq2Seq模型結構

seq2seq 對話，翻譯

seq2seq以及Attention機制

seq2seq模型詳解

Seq2Seq模型結構

seq2seq 對話，翻譯

相關推薦