自動摘要技術發展

2021-09-25 15:31:48 字數 2685 閱讀 2551

·自動摘要技術·

發展歷史:

​ 20世紀50年代,自動摘要(和機器翻譯)被提出:對給定文字提取包含最重要資訊的描述-摘要。乙個代表性研究由h. p. luhn提出,用程式對機器可讀形式的完整文字進行分析,用詞頻及其分布的統計資訊來計算重要性度量的方式。

​ 2023年,harold p edmundson 描述了乙個基於關鍵短語的範例,除了標準頻率依賴權重之外,還使用以下三種方法來確定句子權重:cue method,title method,location method。

​ 2023年,lsa(隱語義分析)被susan dumais等人提出

​ 2023年,lsa 被 yihong gong 和 xin liu 提出為新聞領域中的單/多文件摘要選擇高排名的句子。

抽取式摘要方法大多是啟發式計算句子分數,沒有概率角度的解釋,於是開始轉向貝葉斯方法

​ 2023年,andrew y. ng等人提出 lda(隱狄利克雷分布),結合了貝葉斯思想的概率隱性語義分析(plsa)。

​ 2023年,ming zhou等人在rnn上對多文件摘要進行句子排名,利用分層回歸計算句子、短語在解析樹中的顯著性從而實現提取內容和過濾冗餘,r2n2在duc 2001,2002和2004多文件摘要資料集上是最先進的摘要生成方法。

基於rnn的自動摘要方法對短文本非常好,而對長文字生成的摘要會有冗餘和不連貫問題

​ 2023年,richard socher等人提出一種使用讀取輸入的 bilstm編碼器和生成輸出的 lstm解碼器的神經網路結構:1)內部注意力策略(intra-attention strategy)分別關注輸入和持續輸出;2)將有監督詞**和強化學習結合起來。

​ ​ 2023年,christopher d. manning等人,提出以兩種正交方式增強標準的seq2seq注意力模型:1)使用混合指標生成器網路,從源文字中複製單詞並保留生成器的新單詞生成功能; 2)使用覆蓋率來跟蹤已總結內容以防止重複生成。

目前最先進方法:

a deep reinforced model for abstractive summarization

convolutional sequence to sequence learning - convs2s

方法總結:

基於統計:關注詞頻和句子權重;

基於圖模型:構建拓撲結構圖對詞句排序;

基於隱語義:使用主題模型挖掘語句潛在資訊,如lda、plsa;

基於線性規劃:轉化為路徑規劃問題求全域性最優解。

常用模型:

​ bag of words、word2vec、n-gram、tfidf、lsi/plsi、lda

代表系統:

textteaser 開源**有三個class,其中summarizer為生成摘要類:計算每句話分數,按原文順序輸出得分前5的句子。

textrank 演算法是基於圖的排序演算法,基本思想源於google的pagerank,將文字分解成組成單元,建立圖模型,利用投票機制進行單元的重要性排序

玻森自動摘要,基於mmr(最大邊緣相關模型 maximal marginal relevance,無監督模型)方法以提高生成內容的多樣性,使摘要更加全面。

密西根大學 newsinessence;哥倫比亞大學 newsblaster;哈佛大學的 opennmt;史丹福大學 seq2seq。

​ 冗餘問題、連貫性、可讀性、多樣性、自動評價(edmundson,rouge,be)

duc,**開展了文字摘要的比賽,2023年開始換到tac**,小型資料集,可用於評測模型。

gigaword,單句摘要,950w篇新聞文章,headline做summary,first sentence做input。

cnn/daily mail,多句摘要。

english gigaword,包括六大主流**機構的新聞文章。

開放api:

​ sumy-python

​ 乙個成熟的開源免費的摘要演算法庫,提供命令列工具,python介面,使用簡單,整合方便。從使用效果來看,自帶演算法裡面 luhn, lexrank和 textrank 三者效果最好。sumy 不足之處在於自己想改進其演算法難度大,沒有說明文件,沒有提供介面做引數調整,只是在github頁面有提供了幾份*****s的鏈結。

​ sumpy-python

​ textsum-google

​ 利用了深度學習技術的機器摘要演算法,從github頁面的描述看效果很好。不過存在的問題也不少。跑這個演算法要使用專業語料庫annotated english gigaword則需要$6000授權費,如果沒有授權可以用toy dataset,注意要把他提供的data檔案重新命名為training-, validation- 和test-來分別跑訓練,驗證和摘要生成,decode命令就是用來生成摘要的。

nlp 大主題:語言分詞、命名實體識別、文字分類、情感分析、自動摘要;聊天機械人、機器翻譯。

PLC技術發展歷史

plc即可程式設計控制器 programmable logic controller,plc 自1969年入世以來,逐漸成為了使用最多 應用最廣的工業控制器,目前已有多個分支。plc控制由中心處理單元cpu 儲存器電源單元等組成,抗干擾能力強。其是採用一類可程式設計的儲存器,專為工業現場應用而設計,...

應用部署技術發展簡史

網際網路企業生產環境的應用部署所經歷的過程,大致可分三個階段 用純粹的物理機部署應用,這是所有早期物聯網公司必然經歷的乙個階段。一台伺服器,至少32核cpu 64g記憶體,如果只部署乙個應用,那就太浪費了。於是,多個應用程序,db,快取程序等等都部署在同乙個機器上。這樣部署固然能高效的利用好昂貴的物...

通訊技術發展史

年 份 事件1838年 摩爾斯發明有線電報 1864年 麥克斯韋爾提出電磁輻射方程 1876年 貝爾發明有線 1896年 馬克尼發明無線電報 1906年 真空管面世 1918年 調幅無線電廣播 超外差收音機問世 1925年 開始利用三路明線載波 進行多路通訊 1936年 調頻無線電廣播開播 1937...