機器翻譯機制

2021-10-02 23:14:33 字數 1169 閱讀 6055

處理步驟看作適合處理由乙個句子(或篇章)生成另外乙個句子(或篇章)的通用處理模型。對於句子對。 --------(思考:對很通用,x是乙個問句,y是答案;x是乙個句子,y是抽取的關係三元組;x是漢語句子,y是漢語句子的英文翻譯。等等),我們的目標是給定輸入句子x,期待通過encoder-decoder框架來生成目標句子y。x和y可以是同一種語言,也可以是兩種不同的語言。而x和y分別由各自的單詞序列構成:

encoder顧名思義就是對輸入句子x進行編碼,將輸入句子通過非線性變換轉化為中間語義表示c:

對於解碼器decoder來說,其任務是根據句子x的中間語義表示c和之前已經生成的歷史資訊y1,y2….yi-1來生成i時刻要生成的單詞yi :

每個yi都依次這麼產生,那麼看起來就是整個系統根據輸入句子x生成了目標句子y。 ------(思考:其實這裡的encoder-decoder是乙個序列到序列的模型seq2seq,這個模型是對順序有依賴的。)

引入注意力機制的seq2seq模型

下圖展示encoding 和decoding的模型結構,在時間步為t的時候。此刻attention layer儲存著encodering看到的所有資訊——即encoding的每一步輸出。在decoding階段,解碼器的 t 時刻的隱藏狀態被當作query,encoder的每個時間步的hidden states作為key和value進行attention聚合. attetion model的輸出當作成上下文資訊context vector,並與解碼器輸入 dt 拼接起來一起送到解碼器:

下圖展示了seq2seq機制的所以層的關係,下面展示了encoder和decoder的layer結構

機器翻譯(待續)

機器翻譯 語言模型 翻譯模型 語言模型如 n元語言模型 n元語言模型 舉例,三元語言模型,乙個詞至於它相鄰的2個詞有關。條件概率 p 我吃飯 表示詞語組合合理的概率。p 我吃飯 p 飯 我吃 p 我吃 p 我吃 p 吃 我 p 我 得到 p 我吃飯 p 飯 我吃 p 吃 我 p 我 基礎統計概率這樣...

1958 機器翻譯

time limit 1 sec memory limit 128 mb submit 55 solved 28 submit status web board 小晨的電腦上安裝了乙個機器翻譯軟體,他經常用這個軟體來翻譯英語文章。這個翻譯軟體的原理很簡單,它只是從頭到尾,依次將每個英文單詞用對應的中...

機器翻譯彙總

史丹福大學的nlp 機器翻譯的專案 tf中的nmt專案 最新進展 facebook ai research convolutional sequence to sequence learning 該文章所提出的模型 簡稱convs2s 不僅僅在翻譯任務上效果顯著,而且所需訓練時間也很短。實現 pyt...