關鍵詞提取

#encoding = utf-8
import jieba.analyse as analyse
lines_1 = open('...\\nba.txt',encoding = 'utf-8').read()
print(' '.join(analyse.extract_tags(lines_1,topk = 20,allowpos = ())))
>>> 時間 建議 特別 過程 選擇 機會 期待 一家 介紹 很大 交流 韋少 全明星 杜蘭特 mvp 全明星賽 威少 指導 兩次 週末

jieba.analyse.textrank(sentence,topk = 20,withweight = false,allowpos = ())

sentence 為待分析文字

allowpos = ()指定返回詞的詞性

import jieba.analyse as analyse
lines_1 = open('d:\\study\\nlp\\01_nlpbasis_txt\\lecture_1\\nba.txt',encoding = 'utf-8').read()
print(' '.join(analyse.textrank(lines_1,topk = 20, withweight = false, allowpos = ('ns','n','vn','v'))))
>>>全明星賽 勇士 正賽 指導 對方 投籃 球員 沒有 出現 時間 威少 認為 看來 結果 相隔 助攻 現場 三連莊 介紹 嘉賓
print(' '.join(analyse.textrank(lines_1,topk = 20, withweight = false, allowpos = ('ns','n'))))
>>>勇士 正賽 全明星賽 指導 投籃 玩命 時間 對方 現場 結果 球員 嘉賓 時候 全隊 主持人 ** 全程 目標 快船隊 肥皂劇

關鍵詞提取

隱含主題模型優缺點隱含主題模型可以很好地表示文件和標籤主題，有效降低標籤系統中噪音的影響。但是另外乙個方面，隱含主題相對於詞而言粒度較粗，對於具體實體如人名地名機構名和產品名的標籤沒有辦法做到很好地區分，因此對這些細粒度標籤推薦效果較差典型的聚類演算法層次聚類 hierarchical...

關鍵詞提取

import jieba.analyse index 2400 print df news content index str.join sequence sequence中用str連線 content s str join content s index print join jieba.anal...

TF IDF 提取關鍵詞

class document p s p p string,1,preg split no empty this build tf else public function build tf public function build tfidf idf else arsort this tfidf...

關鍵詞提取

關鍵詞提取

關鍵詞提取

TF IDF 提取關鍵詞

相關推薦