自動摘要技術發展

·自動摘要技術·

發展歷史：

20世紀50年代，自動摘要（和機器翻譯）被提出：對給定文字提取包含最重要資訊的描述-摘要。乙個代表性研究由h. p. luhn提出，用程式對機器可讀形式的完整文字進行分析，用詞頻及其分布的統計資訊來計算重要性度量的方式。

2023年，harold p edmundson 描述了乙個基於關鍵短語的範例，除了標準頻率依賴權重之外，還使用以下三種方法來確定句子權重：cue method，title method，location method。

2023年，lsa（隱語義分析）被susan dumais等人提出

2023年，lsa 被 yihong gong 和 xin liu 提出為新聞領域中的單/多文件摘要選擇高排名的句子。

抽取式摘要方法大多是啟發式計算句子分數，沒有概率角度的解釋，於是開始轉向貝葉斯方法

2023年，andrew y. ng等人提出 lda（隱狄利克雷分布)，結合了貝葉斯思想的概率隱性語義分析（plsa）。

2023年，ming zhou等人在rnn上對多文件摘要進行句子排名，利用分層回歸計算句子、短語在解析樹中的顯著性從而實現提取內容和過濾冗餘，r2n2在duc 2001,2002和2004多文件摘要資料集上是最先進的摘要生成方法。

基於rnn的自動摘要方法對短文本非常好，而對長文字生成的摘要會有冗餘和不連貫問題

2023年，richard socher等人提出一種使用讀取輸入的 bilstm編碼器和生成輸出的 lstm解碼器的神經網路結構：1）內部注意力策略（intra-attention strategy）分別關注輸入和持續輸出；2）將有監督詞**和強化學習結合起來。

2023年，christopher d. manning等人，提出以兩種正交方式增強標準的seq2seq注意力模型：1）使用混合指標生成器網路，從源文字中複製單詞並保留生成器的新單詞生成功能； 2）使用覆蓋率來跟蹤已總結內容以防止重複生成。

目前最先進方法： a deep reinforced model for abstractive summarization

convolutional sequence to sequence learning - convs2s

方法總結：

基於統計：關注詞頻和句子權重；

基於圖模型：構建拓撲結構圖對詞句排序；

基於隱語義：使用主題模型挖掘語句潛在資訊，如lda、plsa；

基於線性規劃：轉化為路徑規劃問題求全域性最優解。

常用模型：

bag of words、word2vec、n-gram、tfidf、lsi/plsi、lda

代表系統：

textteaser 開源**有三個class，其中summarizer為生成摘要類：計算每句話分數，按原文順序輸出得分前5的句子。

textrank 演算法是基於圖的排序演算法，基本思想源於google的pagerank，將文字分解成組成單元，建立圖模型，利用投票機制進行單元的重要性排序

玻森自動摘要，基於mmr（最大邊緣相關模型 maximal marginal relevance，無監督模型）方法以提高生成內容的多樣性，使摘要更加全面。

密西根大學 newsinessence；哥倫比亞大學 newsblaster；哈佛大學的 opennmt；史丹福大學 seq2seq。

冗餘問題、連貫性、可讀性、多樣性、自動評價（edmundson，rouge，be）

duc，**開展了文字摘要的比賽，2023年開始換到tac**，小型資料集，可用於評測模型。

gigaword，單句摘要，950w篇新聞文章，headline做summary，first sentence做input。

cnn/daily mail，多句摘要。

english gigaword，包括六大主流**機構的新聞文章。

開放api：

sumy-python

乙個成熟的開源免費的摘要演算法庫，提供命令列工具，python介面，使用簡單，整合方便。從使用效果來看，自帶演算法裡面 luhn, lexrank和 textrank 三者效果最好。sumy 不足之處在於自己想改進其演算法難度大，沒有說明文件，沒有提供介面做引數調整，只是在github頁面有提供了幾份*****s的鏈結。

sumpy-python

textsum-google

利用了深度學習技術的機器摘要演算法，從github頁面的描述看效果很好。不過存在的問題也不少。跑這個演算法要使用專業語料庫annotated english gigaword則需要$6000授權費，如果沒有授權可以用toy dataset，注意要把他提供的data檔案重新命名為training-, validation- 和test-來分別跑訓練，驗證和摘要生成，decode命令就是用來生成摘要的。

nlp 大主題：語言分詞、命名實體識別、文字分類、情感分析、自動摘要；聊天機械人、機器翻譯。

自動摘要技術發展

PLC技術發展歷史

應用部署技術發展簡史

通訊技術發展史

自動摘要技術發展

PLC技術發展歷史

應用部署技術發展簡史

通訊技術發展史

相關推薦