向量(文字)相似度(或點的距離)的計算方案彙總

2021-08-20 01:15:33 字數 2062 閱讀 3930

1、余弦相似度(cosine)

公式:

即:以向量的夾角為考量角度,以向量的內積(各對應元素相乘求和)比兩個向量的模的積為計算結果。

即:基本上考慮的是點的空間距離,各對應元素做差取平方求和後開方。  

3、曼哈頓距離(manhattan distance

)公式:d(i,j)=|x1-x2|+|y1-y2|.

即:向量各對應座標間做差求絕對值後求和。

曼哈頓距離的由來是在規劃為方形建築區塊的城市(曼哈頓)內,計算最短的行車路徑。從某一地點到另一地點,必須走固定的n個區塊,沒有其它捷徑。為了便於理解,如下:

4、皮爾遜相關係數(pc:pearson correlation coefficient

公式:

即:上面所提到的調整的余弦相似度,向量內各對應元素減去均值求積後求和,記為結果1;各對應元素減去均值平方求和再求積,記為結果2;結果1比結果2.    

針對線性相關情況,可用於比較因變數和自變數間相關性如何

公式:

即:和上述類似,不同的是將對於樣本中的原始資料xi,yi轉換成等級資料xi,yi,即xi等級和yi等級。並非考慮原始資料值,而是按照一定方式(通常按照大小)對資料進行排名,取資料的不同排名結果代入公式。

實際上,可通過簡單的方式進行計算,n表示樣本容量,di表示兩向量x和y內對應元素的等級的差值,等級di = xi - yi,則:

例如( 維基百科):ixi

每週花在電視上的小時數, yiyi

等級xi

等級yi

didi2860

1100

972026

-416

992838

-525

1002747

-3910150510

-525

1032969

-39106773

4161101785

39112692

74911312104

6366、傑卡德相似係數(jaccard距離)

公式:

即:用來衡量兩個集合差異性的乙個指標,交集除以並集,向量(文字)相似度用共同出現的元素(詞語、短語等特徵)除以兩者的總量。

7、simhash+漢明距離

(hamming distance)

simhash:谷歌發明,根據文字轉為64位的位元組,計算漢明距離判斷相似性。

漢明距離:在資訊理論中,兩個等

長字串的漢明距離是兩者間對應位置的不同字元的個數。換句話說,它就是將乙個字串變換成另外乙個字串所需要替換的字元個數。例如:

「10110110」和「10011111」的漢明距離為3;

「abcde」和「adcaf」的漢明距離為3.

8、等......(待你補充

文字相似度計算 編輯距離

一 概念 編輯距離 編輯距離,又稱levenshtein距離,是指兩個字串之間,由乙個轉成另乙個所需的最少編輯操作次數。許可的編輯操作包括將乙個字元替換成另乙個字元,插入乙個字元,刪除乙個字元。如 將sailn一字轉成failing sailn failn s f 插入,刪除 sailn faili...

文字相似度的計算

文字相似度的計算方法有很多,這裡簡單記錄一下 傳統的vsm模型 計算文字相似度的時候主要是使用tfidf來協助生成文件向量 整個文件集合有多少詞,就是多少維度 每個文件中的詞用tfidf來生成權重,用權重來表示文件的向量 生成向量後,就可以計算相似度了,用夾角余弦 當然這裡詞的權重的生成方式還有很多...

計算文字相似度

計算文字相似度 推薦2收藏 簡單講解 文字相似度計算在資訊檢索 資料探勘 機器翻譯 文件複製檢測等領域有著廣泛的應用。比如 控制,我們假設你開發了乙個微博 並且已經把世界上罵人的句子都已經收錄進了資料庫,那麼當乙個使用者發微博時會先跟罵人句子的資料庫進行比較,如果符合裡面的句子就不讓使用者發出。通常...