文字挖掘學習(五) 文件相似度 文件聚類

2021-09-11 06:37:03 字數 1325 閱讀 9651

基於詞袋模型的基本思路

余弦相似度

# 文字相似度

# 基於詞袋模型計算

#countvec = countvectorizer(min_df=5) # 在5個以上章節**現才保留

#words_vec = countvec.fit_transform(words_list) # 得到乙個稀疏矩陣,詞頻矩陣

from sklearn.metrics.pairwise import pairwise_distances

pairwise_distances(words_vec, metric='cosine')

# 使用tf-idf矩陣進行相似度計算

文件聚類問題在本質上已經和普通的聚類分析沒有區別

# 文件聚類

# 為章節新增名稱標籤

chap.index = [df.txt[df.chap == i].iloc[0] for i in chap.index]

# tfidf

# 進行聚類分析

from sklearn.cluster import kmeans

clf = kmeans(n_clusters=5) # 聚為5類

chapcls = chapgrp.agg(sum) # 自動轉為合併字串

mongodb學習心得(五)文件查詢

查詢文件 查詢行資料 查詢所有 語法 db.collection.find query,projection 引數query 可選,使用查詢操作符指定查詢條件 projection 可選,使用投影操作符指定返回的鍵。查詢時返回文件中所有鍵值,只需省略該引數即可 預設省略 如果想格式化返回資料,使用如...

PDF格式分析(五)文件結構之檔案頭

一般情況下,檔案頭,即,pdf檔案的第一行,它用來定義pdf的版本,從而確定該pdf遵循的哪個版本的pdf規範。pdf版本是向下相容的,即高版本的規範,相容低版本的規範。目前我見過的版本有 pdf 1.0 pdf 1.1 pdf 1.2 pdf 1.3 pdf 1.4 pdf 1.5 pdf 1.6...

NLP(五)文字分類

1 svm 2 樸素貝葉斯 3 lda 本文給出 和使用中的效果 1 svm svm做文字分類準確率並不高,而且耗時,訓練集少時推薦邏輯回歸 from sklearn.feature extraction.text import tfidfvectorizer from sklearn.svm im...