文字相似度計算 餘弦定理和廣義Jaccard係數

2022-02-15 14:12:46 字數 1065 閱讀 5198

在7.9餘弦定理+空間向量--我的數學3

中簡單地說了一下利用餘弦定理來計算文字相似度。下面是利用餘弦定理和廣義jaccard係數來計算文字相似度。

簡單介紹一下jaccard係數:廣義jaccard係數可以用於文件資料,並在二元屬性情況下歸約為jaccard係數。廣義jaccard係數又稱tanimoto係數。(有另一種係數也稱為tanimoto係數)。該係數用ej表示,由下式定義:

ej(x,y)=(x*y)/(||x|*||x||+||y||*||y||-x*y)

其公式與余弦相似度的計算有點相似

clusterusingkmeans.rar

77.txt為原始文件,77.txt對比其他文件得到的相似度報告可以在 實驗報告.doc中檢視

如下所示

使用cos(

名詞和成語)使用

cos(

無限制)

使用jaccard (

名詞和成語)使用

jaccard (

無限制)

53.txt

0.75956909998699

0.695630243577844

0.560566883431663

0.4670868864554

57.txt

0.832549281197672

0.784451145860574

0.711498783220936

0.635179493763215

75.txt

0.723232861947749

0.705986655123678

0.515174136459287

0.494265265766382

94.txt

0.944456910179154

0.864040767357343

0.624237679218324

0.760073520562129

ps: 通過檢視文字的內容,可以發現五個文字之間都存在一定的相似。能得到文字的相似度之後,可以採用k-means等聚類演算法對文字資料進行聚類。

k-means的演算法過程可以通過網路得到。

文字相似度計算 餘弦定理和廣義Jaccard係數

在7.9餘弦定理 空間向量 我的數學3 中簡單地說了一下利用餘弦定理來計算文字相似度。下面是利用餘弦定理和廣義jaccard係數來計算文字相似度。簡單介紹一下jaccard係數 廣義jaccard係數可以用於文件資料,並在二元屬性情況下歸約為jaccard係數。廣義jaccard係數又稱tanimo...

使用餘弦定理計算文字相似度

文字相似度 學過向量代數的人都知道,向量實際上是多維空間中有方向的線段。如果兩個向量的方向一致,即夾角接近零,那麼這兩個向量就相近。而要確定兩個向量方向是否一致,這就要用到餘弦定理計算向量的夾角了。餘弦定理對我們每個人都不陌生,它描述了三角形中任何乙個夾角和三個邊的關係,換句話說,給定三角形的三條邊...

文字相似度演算法 餘弦定理

最近由於工作專案,需要判斷兩個txt文字是否相似,於是開始在網上找資料研究,因為在程式中會把文字轉換成string再做比較,所以最開始找到了這篇關於 距離編輯演算法 blog寫的非常好,受益匪淺。於是我決定把它用到專案中,來判斷兩個文字的相似度。但後來實際操作發現有一些問題 直接說就是查詢一本書中的...