向量（文字）相似度（或點的距離）的計算方案彙總

1、余弦相似度（cosine）

公式：

即：以向量的夾角為考量角度，以向量的內積（各對應元素相乘求和）比兩個向量的模的積為計算結果。

即：基本上考慮的是點的空間距離，各對應元素做差取平方求和後開方。

3、曼哈頓距離（manhattan distance

）公式：d(i,j)=|x1-x2|+|y1-y2|.

即：向量各對應座標間做差求絕對值後求和。

曼哈頓距離的由來是在規劃為方形建築區塊的城市（曼哈頓）內，計算最短的行車路徑。從某一地點到另一地點，必須走固定的n個區塊，沒有其它捷徑。為了便於理解，如下：

4、皮爾遜相關係數（pc：pearson correlation coefficient

）公式：

即：上面所提到的調整的余弦相似度，向量內各對應元素減去均值求積後求和，記為結果1；各對應元素減去均值平方求和再求積，記為結果2；結果1比結果2.

針對線性相關情況，可用於比較因變數和自變數間相關性如何。

公式：

即：和上述類似，不同的是將對於樣本中的原始資料xi,yi轉換成等級資料xi,yi，即xi等級和yi等級。並非考慮原始資料值，而是按照一定方式（通常按照大小）對資料進行排名，取資料的不同排名結果代入公式。

實際上，可通過簡單的方式進行計算，n表示樣本容量，di表示兩向量x和y內對應元素的等級的差值，等級di = xi - yi，則：

例如（維基百科）：ixi

每週花在電視上的小時數, yiyi

等級xi

等級yi

didi2860

1100

972026

-416

992838

-525

1002747

-3910150510

-525

1032969

-39106773

4161101785

39112692

74911312104

6366、傑卡德相似係數（jaccard距離）

公式：

即：用來衡量兩個集合差異性的乙個指標，交集除以並集，向量（文字）相似度用共同出現的元素（詞語、短語等特徵）除以兩者的總量。

7、simhash+漢明距離

（hamming distance）

simhash：谷歌發明，根據文字轉為64位的位元組，計算漢明距離判斷相似性。

漢明距離：在資訊理論中，兩個等

長字串的漢明距離是兩者間對應位置的不同字元的個數。換句話說，它就是將乙個字串變換成另外乙個字串所需要替換的字元個數。例如：

「10110110」和「10011111」的漢明距離為3；

「abcde」和「adcaf」的漢明距離為3.

8、等......（待你補充

文字相似度計算編輯距離

一概念編輯距離編輯距離，又稱levenshtein距離，是指兩個字串之間，由乙個轉成另乙個所需的最少編輯操作次數。許可的編輯操作包括將乙個字元替換成另乙個字元，插入乙個字元，刪除乙個字元。如將sailn一字轉成failing sailn failn s f 插入，刪除 sailn faili...

文字相似度的計算

文字相似度的計算方法有很多，這裡簡單記錄一下傳統的vsm模型計算文字相似度的時候主要是使用tfidf來協助生成文件向量整個文件集合有多少詞，就是多少維度每個文件中的詞用tfidf來生成權重，用權重來表示文件的向量生成向量後，就可以計算相似度了，用夾角余弦當然這裡詞的權重的生成方式還有很多...

計算文字相似度

計算文字相似度推薦2收藏簡單講解文字相似度計算在資訊檢索資料探勘機器翻譯文件複製檢測等領域有著廣泛的應用。比如控制，我們假設你開發了乙個微博並且已經把世界上罵人的句子都已經收錄進了資料庫，那麼當乙個使用者發微博時會先跟罵人句子的資料庫進行比較，如果符合裡面的句子就不讓使用者發出。通常...

向量（文字）相似度（或點的距離）的計算方案彙總

文字相似度計算 編輯距離

文字相似度的計算

計算文字相似度

相關推薦

文字相似度計算編輯距離