文字相似度

2021-08-19 02:43:09 字數 635 閱讀 1121

這種相似度計算方式相對簡單,原理也易於理解,就是計算單詞集合之間的交集和並集大小的比例,該值越大,表示兩個文字越相似。在涉及到大規模平行計算時,該方法效率上有一定的優勢。

jaccard 相似度公式:

舉例:句子a:「我喜歡看電視,不喜歡看電影。」

句子b:「我不喜歡看電視,也不喜歡看電影。」 

分詞去噪後:a=(我,喜歡,看,電視,電影,不)  b=(我,喜歡,看,電視,電影,也,不)

那麼j(a,b)=(我,喜歡,看,電視,電影,不)/(我,喜歡,看,電視,電影,也,不)=6/7=0.86

余弦(cosine)相似度

余弦相似度是利用計算兩個向量之間的夾角,夾角越小相似度越高,其公式為:

假定a和b是兩個n維向量,a是[a1,a2,...,an],b是[b1,b2,b3,...,bn],則a與b的夾角余弦等於:

沿用上面的例子,計算詞頻如下:

句子a:我 1,喜歡 2,看 2,電視 1,電影 1, 不 1,也 0。

句子b:我 1,喜歡 2,看 2,電視 1,電影 1,不 2,也 1。

寫出詞頻向量:

句子a:[1,2,2,1,1,1,0]     句子b:[1,2,2,1,1,2,1]

使用上述公式,我們可以得到句子a與句子b的夾角余弦。

計算文字相似度 文字相似度演算法之 simhash

文字相似度演算法種類繁多,今天先介紹一種常見的網頁去重演算法simhash。1 什麼是simhash 2 simhash步驟 人工智慧,1 大資料,2 科技,3 網際網路,4 機器學習,5 人工智慧 00101 大資料 11001 科技 00110 網際網路 10101 機器學習 01011 has...

計算文字相似度

計算文字相似度 推薦2收藏 簡單講解 文字相似度計算在資訊檢索 資料探勘 機器翻譯 文件複製檢測等領域有著廣泛的應用。比如 控制,我們假設你開發了乙個微博 並且已經把世界上罵人的句子都已經收錄進了資料庫,那麼當乙個使用者發微博時會先跟罵人句子的資料庫進行比較,如果符合裡面的句子就不讓使用者發出。通常...

文字相似度計算

一 簡介 文字相似度是進行文字聚類的基礎,和傳統的結構化數值資料的聚類方法相似,文字聚類是通過計算文字之間的 距離 來表示文字之間的相似度,並產生聚類。文字相似度的常用計算反法有餘弦定理。但是文字資料和普通的資料不同,它是一種半結構化的資料,在進行聚類之前必須要對文字資料來源進行處理,如分詞 向量化...