神經網路翻譯 選擇注意力機制

2021-10-24 12:41:53 字數 920 閱讀 6947

本文提出了一種新的編碼-解碼方式,他認為之前提到的rnn-encode-decoder 是因為中間轉換的固定向量c,而導致該模型無法有效處理長句序列,因此提出一種為當前**詞從輸入序列中自動搜尋相關部分的機制(soft-search),也就是注意力機制

因為前面已經對rnn-encoder-decoder做了介紹,所以這裡就不在詳細的說了。

我們定義最後對應的輸出結果為:

st為隱狀態,

ci為關鍵,他取決於輸入序列的annotation(h1…ht)(編碼層的隱狀態),每個hi都包含著整個輸入序列的資訊,重點關注的是當前輸入單詞xi的周圍資訊。

而這個地方其實比較迷惑,從上面這幾個式子來分析,我們可以看出來,a為乙個對齊模型,文章中體現為乙個前饋神經網路,並且是和其他模型一起訓練的,他的目的便是計算當前輸入的隱狀態si-1和輸入序列hj之間的相似度,在文章中對齊模型a為乙個單層感知機:

這裡也提出了一種計算相似度的方法,也就是通過網路(一般是感知機網路)來計算。

1、他利用bilstm來解決rnn的長時依賴問題,每個輸出的hi隱狀態是正反lstm的hi連線生成的,也就是說當前的隱狀態hi主要focus on 當前的詞,而當前詞主要是由周圍的詞決定的,而這周圍詞也就是上下文。

2、注意力機制:我們要注意的是注意力機制最關鍵是找到context vector或extra information,在這裡便是si-1,也就是輸出單詞的前乙個隱狀態,實際上我們稍微深究一下,這個隱狀態實際上代表的便是當前的輸出詞向量,而這個隱狀態包含的是之前的輸出詞資訊,也就是一種另類的上下文。

注意力機制

從網路結構本身的角度出發,可以從以下四個維度來提公升卷積神經網路的效能,分別是 深度 resnet 寬度 wideresnet 基數 resnext 和注意力 senet 一般來說,網路越深,所提取到的特徵就越抽象 網路越寬,其特徵就越豐富 基數越大,越能發揮每個卷積核獨特的作用 而注意力則是一種能...

注意力機制

深度學習中的attention,源自於人腦的注意力機制,當人的大腦接受到外部資訊,如視覺資訊 聽覺資訊時,往往不會對全部資訊進行處理和理解,而只會將注意力集中在部分顯著或者感興趣的資訊上,這樣有助於濾除不重要的資訊,而提最早將attention利用在影象處理上的出發點是,希望通過乙個類似於人腦注意力...

注意力機制筆記

本文是對深度學習中的注意力機制做的筆記,並附上注意力機制應用的部分例子。首先,從其功能感受下注意力機制的作用。來自這裡 上圖展示了引入attention後框架的變化 由固定的語義編碼c變為根據輸出不斷變化的 公式中 抽象為更一般的模型如下 相似度計算 階段1 相似度的歸一化 階段2 計算attent...