python實現關鍵詞提取的示例講解

2022-10-04 19:51:08 字數 1964 閱讀 9428

新人小菜鳥又來寫部落格啦!!!沒人表示不開心~~(>_

今天我來弄乙個簡單的關鍵詞提取的**

文章內容關鍵詞的提取分為三大步:

(1) 分詞

(2) 去停用詞

(3) 關鍵詞提取

分詞方法有很多,我這裡就選擇常用的結巴jieba分詞;去停用詞,我用了乙個停用詞表。

具體**如下:

import jieba

import jieba.analyse

#第一步:分詞,這裡使用結巴分詞全模式

text = '''新聞,也叫訊息,是指報紙、電台、電視台、網際網路經常使用的記錄社會、傳播資訊、反映時代的一種文體,具有真實性、時效性、簡潔性、可讀性、準確性的特點。新聞概念有廣義與狹義之分。就其廣義而言,除了發表於報刊、廣播、電視上的評論與專文外的常用文字都屬於新聞之列,包括訊息、通訊、特寫、速寫(有的將速寫納入特寫之列)等等。狹義的新聞則專指訊息,訊息是用概括的敘述方式,比較簡明扼要的文字,迅速及時地報道國內外新近發生的、有價值的的事實。新聞也分公眾新聞和小道新聞等。每則新聞在結構上,一般包括標題、導語、主體、背景和結語五部分。前三者是主要部分,後二者是輔助部分。寫法上主要是敘述,有www.cppcns.com時兼有議論、描寫、評論等。

'''fenci_text = jieba.cut(text)

#print("/ ".join(fenci_text))

#第二步:去停用詞

#這裡是有乙個檔案存放要改的文章,乙個檔案存放停用表,然後和停用表裡的詞比較,一樣的就刪掉,最後把結果www.cppcns.com存放在乙個檔案中

stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt') ])

final = ""

for word in fenci_text:

if word not in stopword程式設計客棧s:

if (word != "。" and word != ",") :

final = final + " " + word

print(final)

#第三步:提取關鍵詞

a=jieba.analyse.extract_tags(text, topk = 5, withweight = true, allowpos = ())

print(a)

#text 為待提取的文字

# topk:返回幾個 tf/idf 權重最大的關鍵詞,預設值為20。

# withweight:是否一併返回關鍵詞權重值,預設值為false。

# allowpos:僅包括指定詞性的詞,預設值為空,即不進行篩選。

執行結果:

runfile('d:/data/文字挖掘/xiaojieba.py', wdir='d:/data/文字挖掘')

新聞 訊息 指 報紙 、 電台 、 電視台 、 網際網路 記錄 社會 、 傳播 資訊 、 時代 一種 文體 真實性 、 時效性 、 簡潔性 、 可讀性 、 準確性 新聞 概www.cppcns.com念 廣義 狹義 之分 廣義 發表 報刊 、 廣播 、 電視 評論 專文 外 常用 文字 新聞 列 包括 訊息 、 通訊 、 特寫 、 速寫 ( 速寫 納入 特寫 列 ) 狹義 新聞 專指 訊息 訊息 概括 敘述 方式 簡明扼要 文字 報道 國內外 新近 發生 、 價值 事實 新聞 分 公眾 新聞 小道 新聞 每則 新聞 在結構上 包括 標題 、 導語 、 主體 、 背景 結語 五 前 三者 二者 輔助 寫法 敘述 兼有 議論 、 描寫 、 評論

[('新聞', 0.4804811569680808), ('速寫', 0.2121107125313131), ('訊息', 0.20363211136040404), ('特寫', 0.20023623445272729), ('狹義', 0.16168734917858588)]

好啦,是不是很簡單?

本文標題: python實現關鍵詞提取的示例講解

本文位址: /jiaoben/python/226618.html

python提取關鍵詞

value 34895348587575 value 34895348587575 abababbaba value 1.290934 coding utf 8 created on sun aug 16 20 57 31 2020 author jwy coding utf 8 version p...

關鍵詞提取

隱含主題模型優缺點 隱含主題模型可以很好地表示文件和標籤主題,有效降低標籤系統中噪音的影響。但是另外乙個方面,隱含主題相對於詞而言粒度較粗,對於具體實體 如人名 地名 機構名和產品名 的標籤沒有辦法做到很好地區分,因此對這些細粒度標籤推薦效果較差 典型的聚類演算法 層次聚類 hierarchical...

關鍵詞提取

encoding utf 8 import jieba.analyse as analyse lines 1 open nba.txt encoding utf 8 read print join analyse.extract tags lines 1,topk 20,allowpos 時間 建議...