神經網路翻譯選擇注意力機制

本文提出了一種新的編碼-解碼方式，他認為之前提到的rnn-encode-decoder 是因為中間轉換的固定向量c，而導致該模型無法有效處理長句序列，因此提出一種為當前**詞從輸入序列中自動搜尋相關部分的機制（soft-search），也就是注意力機制

因為前面已經對rnn-encoder-decoder做了介紹，所以這裡就不在詳細的說了。

我們定義最後對應的輸出結果為：

st為隱狀態，

ci為關鍵，他取決於輸入序列的annotation（h1…ht）（編碼層的隱狀態），每個hi都包含著整個輸入序列的資訊，重點關注的是當前輸入單詞xi的周圍資訊。

而這個地方其實比較迷惑，從上面這幾個式子來分析，我們可以看出來，a為乙個對齊模型，文章中體現為乙個前饋神經網路，並且是和其他模型一起訓練的，他的目的便是計算當前輸入的隱狀態si-1和輸入序列hj之間的相似度，在文章中對齊模型a為乙個單層感知機：

這裡也提出了一種計算相似度的方法，也就是通過網路（一般是感知機網路）來計算。

1、他利用bilstm來解決rnn的長時依賴問題，每個輸出的hi隱狀態是正反lstm的hi連線生成的，也就是說當前的隱狀態hi主要focus on 當前的詞，而當前詞主要是由周圍的詞決定的，而這周圍詞也就是上下文。

2、注意力機制：我們要注意的是注意力機制最關鍵是找到context vector或extra information，在這裡便是si-1，也就是輸出單詞的前乙個隱狀態，實際上我們稍微深究一下，這個隱狀態實際上代表的便是當前的輸出詞向量，而這個隱狀態包含的是之前的輸出詞資訊，也就是一種另類的上下文。

神經網路翻譯 選擇注意力機制