1.基於詞向量
余弦相似度:分詞、列出兩個句子的並集、計算詞頻向量、計算余弦值,適合基於語義的相似度分析
曼哈頓距離
歐幾里得距離
明式距離(是前兩種距離測度的推廣),在極限情況下的距離是切比雪夫距離
2.基於字元的
編輯距離
simhash,對於短小的文字,計算相似度並不十分準確,更適用於較長的文字。
共有字元數(有點類似 onehot 編碼 ,直接統計兩個文字的共有字元數,最 ***** 的相似度演算法了)
3.基於概率統計的
傑卡德相似係數
4.基於詞嵌入模型的
word2vec/doc2vec
各種演算法的**:
文字相似度演算法
usr bin env python coding utf 8 time 2021 11 12 15 44 我們再寫一遍這個演算法 from icecream import ic import jieba import jieba.analyse from gensim import corpora...
計算文字相似度 文字相似度演算法之 simhash
文字相似度演算法種類繁多,今天先介紹一種常見的網頁去重演算法simhash。1 什麼是simhash 2 simhash步驟 人工智慧,1 大資料,2 科技,3 網際網路,4 機器學習,5 人工智慧 00101 大資料 11001 科技 00110 網際網路 10101 機器學習 01011 has...
文字相似度
這種相似度計算方式相對簡單,原理也易於理解,就是計算單詞集合之間的交集和並集大小的比例,該值越大,表示兩個文字越相似。在涉及到大規模平行計算時,該方法效率上有一定的優勢。jaccard 相似度公式 舉例 句子a 我喜歡看電視,不喜歡看電影。句子b 我不喜歡看電視,也不喜歡看電影。分詞去噪後 a 我,...