Summarization 文字摘要進展

目前，自動文件摘要技術主要分為抽取式（extractive）和摘要式（又叫生成式）（abstractive）兩種。

抽取式摘要相對較為成熟。這種方法利用如 text rank 這樣的排序演算法，對處理後的文章語句進行排序。不過抽取式摘要在語義理解方面考慮較少，無法建立文字段落中的完整的語義資訊。

相較而言，生成式技術需要讓模型理解文章語義後總結出摘要，更類似人類的做法。不過這種技術需要使用機器學習技術，長期以來並不成熟。轉折點出現在 2014 年。這一年，bengio 等人發表**learning phrase representations using rnn encoder-decoder for statistical machine translation，正式引入了 sequence-to-sequence 模型。這一模型通過兩個迴圈神經網路，分別把輸入文字轉化成向量，再把向量轉成輸出序列。這種模型在**中主要用來完成機器翻譯任務，並且後來被應用在谷歌翻譯中，但後續在文摘生成任務中也產生了廣泛的應用。此後，這種利用深度學習的 sequence-to-sequence 方法不斷被改進，在一些標準的評測資料集（如 duc-2004）上，已經超過了傳統的抽取式方法。

例如，2016 年，facebook ai 實驗室（fair）的學者發表**a convolutional encoder model for neural machine translation，在編碼的時候用 cnn 取代 rnn，獲得不錯的效果。salesforce 的研究人員 2017 年發表的**a deep reinforced model for abstractive summarization中，使用了增強學習，在cnn/daily mail資料集上的 rouge-1 分數達到 41.16 分。同年，又是 fair 發表了**convolutional sequence to sequence learning，引入 attention 機制，不僅提高了評測分數，還極大地提公升了速度。

2016 年，來自 ibm 沃森的研究人員發表**abstractive text summarization using sequence-to-sequence rnns and beyond，和之前的**不同，這篇**把機器翻譯和文字摘要任務完全分開，專門針對文字摘要提出了更合適的模型，除此之外，文章還發布了兩個新的資料集。

中國也有許多學者在從事相關工作，例如北大的萬小軍老師。他和姚金戈的綜述《自動文摘研究進展與趨勢》把摘要技術框架總結成 4 個步驟：內容表示 → 權重計算 → 內容選擇 → 內容組織，並對每個步驟都作了介紹。

Summarization 文字摘要進展

php 繪製文字預覽文字

用富文字解析html文字

CSS 文字文字屬性

Summarization 文字摘要進展

php 繪製文字 預覽文字

用富文字解析html文字

CSS 文字 文字屬性

相關推薦

php 繪製文字預覽文字

CSS 文字文字屬性