利用tfidf gensim計算文字相似度

2021-10-06 00:17:31 字數 1077 閱讀 4375

文字相似度分析的過程:

文字分詞、語料庫製作、演算法訓練以及結果**

主要工具:

jieba分詞、gensim製作語料並進行演算法訓練

import jieba

import gensim

#分詞並獲取詞袋函式(為每個出現在語料庫中的單詞分配乙個獨一無二的整數編號id)

string=['少年強則國強','少年智則國智']

text_list=

for sentence in string:

s_list=[word for word in jieba.cut(sentence)]

dictionary=gensim.corpora.dictionary(text_list)

print(dictionary)

print(dictionary.token2id)

#向量轉換(對每個不同單詞出現的次數進行計數並將單詞轉換為編號,以稀疏向量的形式返回結果)

corpus=[dictionary.doc2bow(doc) for doc in text_list]

print(corpus)

#測試字串分詞並獲取詞袋函式

test_string='少年進步則國進步'

test_doc_list=[word for word in jieba.cut(test_string)]

test_doc_vec=dictionary.doc2bow(test_doc_list)

#使用tfidf模型對語料庫建模

tfidf=gensim.models.tfidfmodel(corpus)

#分析測試文件與已存在的每個訓練樣本的相似度

index = gensim.similarities.sparsematrixsimilarity(tfidf[corpus], num_features=len(dictionary.keys()))

sim=index[tfidf[test_doc_vec]]

print(sim)

gensim的國內映象安裝:pip install -i gensim;

參考文章:

python 利用datetime模組計算時間差

python中通過datetime模組可以很方便的計算兩個時間的差,datetime的時間差單位可以是天 小時 秒,甚至是微秒,下面我們就來詳細看下datetime的強大功能 from datetime import datetime a datetime.now b datetime.now a ...

ElGamal 加密 利用Gmp計算

公鑰密碼體制是近現代的乙個偉大發明,相對於傳統的密碼體制而言,公鑰密碼體制有許多的優點,他能夠使得使用者能夠在公共通道上安全的進行金鑰交換,而不必擔心由於金鑰在公共通道上傳輸時受到攻擊而導致的金鑰洩露。以下部分將介紹公鑰密碼中的elgamal密碼體制,並有c語言函式實現。1984年,elgamal提...

利用points計算有效時間

模式cube中包含四個座標 forecast reference time forecast period latitude longitude,有效時間valid time需要利用forecast reference time 和 forecast period 進行計算。import iris....