關鍵詞提取

2021-08-19 18:00:22 字數 961 閱讀 3298

#encoding = utf-8

import jieba.analyse as analyse

lines_1 = open('...\\nba.txt',encoding = 'utf-8').read()

print(' '.join(analyse.extract_tags(lines_1,topk = 20,allowpos = ())))

>>> 時間 建議 特別 過程 選擇 機會 期待 一家 介紹 很大 交流 韋少 全明星 杜蘭特 mvp 全明星賽 威少 指導 兩次 週末

jieba.analyse.textrank(sentence,topk = 20,withweight = false,allowpos = ())

sentence 為待分析文字

allowpos = ()指定返回詞的詞性

import jieba.analyse as analyse

lines_1 = open('d:\\study\\nlp\\01_nlpbasis_txt\\lecture_1\\nba.txt',encoding = 'utf-8').read()

print(' '.join(analyse.textrank(lines_1,topk = 20, withweight = false, allowpos = ('ns','n','vn','v'))))

>>>全明星賽 勇士 正賽 指導 對方 投籃 球員 沒有 出現 時間 威少 認為 看來 結果 相隔 助攻 現場 三連莊 介紹 嘉賓

print(' '.join(analyse.textrank(lines_1,topk = 20, withweight = false, allowpos = ('ns','n'))))

>>>勇士 正賽 全明星賽 指導 投籃 玩命 時間 對方 現場 結果 球員 嘉賓 時候 全隊 主持人 ** 全程 目標 快船隊 肥皂劇

關鍵詞提取

隱含主題模型優缺點 隱含主題模型可以很好地表示文件和標籤主題,有效降低標籤系統中噪音的影響。但是另外乙個方面,隱含主題相對於詞而言粒度較粗,對於具體實體 如人名 地名 機構名和產品名 的標籤沒有辦法做到很好地區分,因此對這些細粒度標籤推薦效果較差 典型的聚類演算法 層次聚類 hierarchical...

關鍵詞提取

import jieba.analyse index 2400 print df news content index str.join sequence sequence中用str連線 content s str join content s index print join jieba.anal...

TF IDF 提取關鍵詞

class document p s p p string,1,preg split no empty this build tf else public function build tf public function build tfidf idf else arsort this tfidf...