文字相似度演算法介紹

levenshteindistance

spacysimilarity

jaccardsimilarity

levenshtein distance是表徵或度量兩段字串的差異度的概念,以單詞kitten和sitting為例，定義：替換(substitution)、插入(insert)和刪除(delete)三種標準編輯手段來消除這兩個詞之間的差異，每經過1次標準編輯手段，levenshtein distance增計一次，則kitten需經過2次替換、1次插入新字元，來得到sitting這個單詞，因此所謂的levenshtein distance應為3。按照其定義，該距離和字串差異度呈正比關係。

定義：兩個字串a，b之間的萊文斯坦距離

編輯距離是nlp基本的度量文字相似度的演算法，可以作為文字相似任務的重要特徵之一，其可應用於諸如拼寫檢查、**查重、基因序列分析等多個方面。但是其缺點也很明顯，演算法基於文字自身的結構去計算，並沒有辦法獲取到語義層面的資訊。

spacysimilarity屬於語義相似度的計算方法。

先將句子的詞向量求平均，獲取句子的語義表示，然後計算兩個句子的語義表示的余弦相似度。

給定兩個集合a,b，jaccard 係數定義為a與b交集的大小與a與b並集的大小的比值，定義如下：

當集合a，b都為空時，j(a,b)定義為1。

與jaccard 係數相關的指標叫做jaccard 距離，用於描述集合之間的不相似度。jaccard 距離越大，樣本相似度越低。

文字相似度演算法介紹

文字相似度演算法

文字相似度演算法

計算文字相似度 文字相似度演算法之 simhash

相關推薦

計算文字相似度文字相似度演算法之 simhash