抽取式文件摘要方法 二)

2021-08-11 11:59:23 字數 1793 閱讀 3990

可考慮眾多因素,由機器學習演算法確定句子重要性

句子分類

二類分類:句子是否隸屬於摘要

svm(支援向量機)

序列標註

為每個句子打上標籤

可考慮相鄰句子之間的關係

hmm(隱馬爾科夫模型),crf(條件隨機場)

句子回歸

為每個句子**乙個反映重要性的分數

svr(支援向量回歸)

 基於編碼器-解碼器框架進行單文件摘要

編碼器:先對句子編碼(利用cnn),再對文件編碼(利用rnn)

解碼器:輸出乙個0/1序列,進行句子抽取(序列標註)

摘要冗餘去除

 去除(多文件)摘要中的冗餘資訊

選擇與摘要中已有句子冗餘度小的句子

文字蘊涵識別技術很適合此目的,但是由於自身效能太差,無法真正應用。一般基於文字相似度來進行判斷。

將摘要看做乙個帶約束的優化問題

基於ilp進行求解,可採用現成的ilp求解工具

比如ibm cplex optimizer

同時進行句子抽取與冗餘去除

 將摘要看做乙個預算約束下的次模函式最大化問題

 設計次模函式,然後利用貪心演算法進行內容選取

實際上就對「邊際效用遞減」這個說法的形式化。就是對於乙個集合函式,若,那麼在s中增加乙個元素所增加的收益要小於等於在s的子集中增加乙個元素所增加的收益。形式化表述就是:對於函式f而言,若且,則通俗的說就是你把所有商品看成乙個集合,隨著你所擁有的物品數量的增加,那麼你獲得剩下物品所得到的滿足程度越來越小。

舉例說明:

a是b的子集,則對於函式f(),如果:f(a+e)-f(a)>=f(b+e)-f(b)成立,則說f()函式是子模的。增益遞減。

例子如下:

u= a= b=

f(a)=|a| 集合a的個數

所以:f(a+e)-f(a)>=f(b+e)-f(b),例如e=

 句子順序直接影響摘要可讀性

單文件摘要中句子順序容易確定,依據句子在原文件中的順序即可

多文件摘要中句子順序較難確定

 來自不同文件中的句子如何確定先

後排序?

可綜合考慮句子所在上下文資訊進行排序。

先確定任何兩句之間的先後順序 機器學習、深度學習

再確定多個句子之間的整體順序 貪心搜尋

文件摘要技術

一 基於特徵的方法 可以考慮如下特徵來進行文件摘要的生成,包括 文章標題 比如文章標題中出現的詞具有較高的權重 段落的位置 比如文章的首段和尾段具有較高的權重 段落的特定句子 比如段落的首句和第二句具有較高的權重 句式的型別 比如陳述句具有較高的權重,含有大標點的句子具有較高的權中等 文章中頻繁出現...

coreseek sphinx文件摘要

1.這些都可以用charset type和charset table選項為每個索引單獨配置.charset type指定文件的編碼是單位元組的 sbcs 還是utf 8的。在coreseek中,如果通過charset dictpath設定中文詞典啟動了中文分詞模式後,不僅可以使用utf 8編碼的,還...

TextRank文件摘要

s vi 1 d d j in vj 1out vj s vj s v i 1 d d j in vj 1 out vj s vj 某網頁vi的得分,由兩個部分構成,其中1 d是為防止出現零值,d右邊的部分,是引用該網頁的各網頁vj的投票之和,投票值等於該網頁的打分s vj 除以它的出度,d一般取經...