關鍵詞提取

2021-07-24 16:52:10 字數 420 閱讀 4336

隱含主題模型優缺點:隱含主題模型可以很好地表示文件和標籤主題,有效降低標籤系統中噪音的影響。但是另外乙個方面,隱含主題相對於詞而言粒度較粗,對於具體實體(如人名、地名、機構名和產品名)的標籤沒有辦法做到很好地區分,因此對這些細粒度標籤推薦效果較差

典型的聚類演算法:層次聚類(hierarchical clustering)、譜聚類(spectral

clustering)和信任傳播聚類(affinitypropagation)。

層次聚類將資料點按照不同的聚類粒度建立乙個聚類層次樹。這個樹有多層,每一層由它的下一層聚類組成。

譜聚類利用資料相似矩陣的 譜(spectrum)資訊來進行特徵降維,將資料點聚類到少數幾個維度。

信任傳播聚類(affinity propagation, ap)。該演算法是基於訊息傳遞(message passing)技術的。

關鍵詞提取

encoding utf 8 import jieba.analyse as analyse lines 1 open nba.txt encoding utf 8 read print join analyse.extract tags lines 1,topk 20,allowpos 時間 建議...

關鍵詞提取

import jieba.analyse index 2400 print df news content index str.join sequence sequence中用str連線 content s str join content s index print join jieba.anal...

TF IDF 提取關鍵詞

class document p s p p string,1,preg split no empty this build tf else public function build tf public function build tfidf idf else arsort this tfidf...