基於BERT PGN模型的中文新聞文字自動摘要生成

2021-10-21 11:40:58 字數 920 閱讀 4249

1.將bert與指標生成網路(pgn)相結合,提出了一種面向中文新聞文字的生成式摘要模型,實現快速閱讀;

2. 結合多維語義特徵的bert-pgn模型對摘要原文的理解更加充分,生成的摘要內容更加豐富,全面且有效地減少重複、冗餘內容的生成;

首先利用預訓練語言模型 bert 獲取新聞文章的詞向量,同時利用多維語義特徵對新聞中的句子進行打分,將二者進行簡單拼接生成輸入序列;然後將得到的輸入序列輸入到指標生成網路模型中,使用coverage機制減少生成重複文字,同時保留生成新文字的能力,得到新聞摘要。
一、bert預訓練語言模型二、多維語義特徵三、基於指標生成網路模型的句子生成階段

一、資料集

二、實驗環境及引數設定

三、實驗結果

下一步將嘗試挖掘更多要素,例如:面向新聞文字的有效人工特徵等,提公升摘要結果;簡化模型,縮短模型訓練時間;提公升生成摘要內容的完整性、流暢性;構建新聞領域的外部資料,幫助模型結合句子上下文充分理解句子含義。

基於 Python 的時序模型 AMIRA模型

時間序列分析的目的 給定乙個已被觀測了的時間序列,該序列的未來值 arima 模型 如果乙個時間序列經差分運算後具有平穩性,則該序列為差分平穩序列,可以使用 arima 模型進行分析。時間序列的預處理 平穩性檢驗 時序圖檢驗 平穩序列的時序圖顯示該序列值始終在乙個常數附近隨機波動,而且波動範圍有界 ...

python基於隱馬爾可夫模型實現中文拼音輸入

在網上看程式設計客棧到一篇關於隱馬爾科夫模型的介紹,覺得簡直不能再神奇,又在網上找到大神的一篇關於如何用隱馬爾可夫模型實現中文拼音輸入的部落格,無奈大神沒給可以執行的 只能純手動網上找到了結巴分詞的詞庫,根據此訓練得出隱馬爾科夫模型,用維特比演算法實現了乙個簡單的拼音輸入法。githuh位址 原理簡...

基於規則的中文分詞

正向最大匹配 maximum match method,mm法 的基本思想為 假定分詞詞典中的最長詞有i個漢字字元,則用被處理文件的當前字串中的前i個字作為匹配字段,查詢字典。若字典中存在這樣的乙個i字詞,則匹配成功,匹配欄位被作為乙個詞切分出來。如果詞典中找不到這樣的乙個i字詞,則匹配失敗,將匹配...