文字相似度演算法

2021-10-07 22:39:24 字數 359 閱讀 9013

1.基於詞向量

余弦相似度:分詞、列出兩個句子的並集、計算詞頻向量、計算余弦值,適合基於語義的相似度分析

曼哈頓距離

歐幾里得距離

明式距離(是前兩種距離測度的推廣),在極限情況下的距離是切比雪夫距離

2.基於字元的

編輯距離

simhash,對於短小的文字,計算相似度並不十分準確,更適用於較長的文字。

共有字元數(有點類似 onehot 編碼 ,直接統計兩個文字的共有字元數,最 ***** 的相似度演算法了)

3.基於概率統計的

傑卡德相似係數

4.基於詞嵌入模型的

word2vec/doc2vec

各種演算法的**:

文字相似度演算法

usr bin env python coding utf 8 time 2021 11 12 15 44 我們再寫一遍這個演算法 from icecream import ic import jieba import jieba.analyse from gensim import corpora...

計算文字相似度 文字相似度演算法之 simhash

文字相似度演算法種類繁多,今天先介紹一種常見的網頁去重演算法simhash。1 什麼是simhash 2 simhash步驟 人工智慧,1 大資料,2 科技,3 網際網路,4 機器學習,5 人工智慧 00101 大資料 11001 科技 00110 網際網路 10101 機器學習 01011 has...

文字相似度

這種相似度計算方式相對簡單,原理也易於理解,就是計算單詞集合之間的交集和並集大小的比例,該值越大,表示兩個文字越相似。在涉及到大規模平行計算時,該方法效率上有一定的優勢。jaccard 相似度公式 舉例 句子a 我喜歡看電視,不喜歡看電影。句子b 我不喜歡看電視,也不喜歡看電影。分詞去噪後 a 我,...