文字相似度的計算

2021-09-19 09:39:20 字數 463 閱讀 1950

文字相似度的計算方法有很多,這裡簡單記錄一下

傳統的vsm模型:

計算文字相似度的時候主要是使用tfidf來協助生成文件向量

整個文件集合有多少詞,就是多少維度

每個文件中的詞用tfidf來生成權重,用權重來表示文件的向量

生成向量後,就可以計算相似度了,用夾角余弦

當然這裡詞的權重的生成方式還有很多,也可以用其他的

lsi(latent semantic indexing) 的方式

這個的方式也比較簡單,主要是先生成文件 - 詞矩陣

矩陣中的內容就是文件**現該詞的頻數

然後用svd分解矩陣得到三個矩陣

c = usv

然後每個文件向量分別和usv相乘得到向量

文字相似度計算還是夾角余弦

至於降低維度,就要對s進行奇異值削減了

計算文字相似度

計算文字相似度 推薦2收藏 簡單講解 文字相似度計算在資訊檢索 資料探勘 機器翻譯 文件複製檢測等領域有著廣泛的應用。比如 控制,我們假設你開發了乙個微博 並且已經把世界上罵人的句子都已經收錄進了資料庫,那麼當乙個使用者發微博時會先跟罵人句子的資料庫進行比較,如果符合裡面的句子就不讓使用者發出。通常...

文字相似度計算

一 簡介 文字相似度是進行文字聚類的基礎,和傳統的結構化數值資料的聚類方法相似,文字聚類是通過計算文字之間的 距離 來表示文字之間的相似度,並產生聚類。文字相似度的常用計算反法有餘弦定理。但是文字資料和普通的資料不同,它是一種半結構化的資料,在進行聚類之前必須要對文字資料來源進行處理,如分詞 向量化...

計算文字相似度

來自 簡單講解 文字相似度計算在資訊檢索 資料探勘 機器翻譯 文件複製檢測等領域有著廣泛的應用。比如 控制,我們假設你開發了乙個微博 並且已經把世界上罵人的句子都已經收錄進了資料庫,那麼當乙個使用者發微博時會先跟罵人句子的資料庫進行比較,如果符合裡面的句子就不讓使用者發出。通常情況下,很多任務程師就...