文獻閱讀摘要生成（之一）

【讀】seq2seq—（2）abstractive sentence summarization with attentive recurrent neural networks。大佬寫的蠻好的，清晰易懂，而且是對比閱讀式的，比我這篇好多了。

本週閱讀了兩篇摘要生成領域的高被引經典文獻，分別是《a neural attention model for abstractive sentence summarization》（emnlp2015）和《abstractive sentence summarization with attentive recurrent neural networks》（acl2016）。其中，前者是後者的基礎。

在本篇部落格中，僅介紹第一篇文章。作者嘗試將seq2seq+attention運用於摘要生成任務上，使用純data-driven的方式生成句子摘要，attention使用的是區域性注意力機制（local attention-based model）。模型結構簡單（可套用end-to-end），但訓練容易，應用效果較好，與baseline相比在duc-2004任務上效果較好。

文章關注句子級摘要任務（the task of sentence-level summarization）。作者受到神經網路應用於機器翻譯的啟發，將神經網路模型與編碼器結合起來。在encoder部分使用attention-based encoder （），decoder使用beam search進行摘要生成。

該方法稱為基於注意的摘要(abs，attention-based summarization)，它比同類的抽象摘要方法包含更少的語言結構，但容易實現大規模的訓練。

這部分裡，作者用數學語言描述了文章要解決的問題。

要實現的目標是：給定乙個輸入句子，生成乙個壓縮的摘要。

注意，與機器翻譯等相關任務相比，該方法在生成摘要之前就固定了假設輸出長度n。

問題的數學描述如下：

使用abstractive方法，其中，x是輸入的句子，y是一組可能的摘要集合（長度為n）。並嘗試從y中去找到最優的序列。

而extractive方法目標函式的定義為：

compression方法目標函式的定義為：

雖然生成式摘要（abstractive summarization）更為困難，但硬性約束條件的缺乏也給了系統更多的生成自由，並允許它適應更大範圍的訓練資料。

文章考慮了scoring functions，考慮到了之前單詞的視窗資訊：

考慮輸入條件下摘要的條件對數概率

引數化的核心是用於估計下乙個單詞的上下文概率的語言模型。該語言模型採用了標準的前饋神經網路語言模型(nnlm)，特別是bengio等人(2003)描述的nnlms。

文章提出了3種encoder，分別為bag-of-words encoder、convolutional encoder和attention-based encoder。

詞袋模型忽略了原始順序或相鄰單詞之間的關係的屬性，但可以捕捉到單詞的相對重要性，從而區分實詞與停用或修飾詞。儘管它在表示連續短語方面能力有限，但模型也可以學會組合單詞。

該方法改進了詞袋模型，允許單詞間互動，不需要上下文yc。

採用了一種類似詞袋模型的注意力機制：

decoder用的是nnlm

使用mini-batch sgd最小化損失。

目標：beam search演算法：

data set： duc-2004

文獻閱讀摘要生成（之一）

文獻閱讀筆記（一）

C 學習摘要之一

構建之法閱讀筆記之一

文獻閱讀 摘要生成（之一）

文獻閱讀筆記（一）

C 學習摘要之 一

構建之法閱讀筆記之一

相關推薦

文獻閱讀摘要生成（之一）

C 學習摘要之一