常用相似性 相關性度量指標

2021-06-23 05:57:06 字數 2445 閱讀 8414

本文將介紹一些資料探勘、機器學習、資訊檢索等領域中常用的一些相似性、相關性度量指標:

(1)euclidean distance

(歐幾里德距離、歐氏距離)

設有兩個向量

它們之間的euclidean distance為:

(曼哈頓距離)

設有兩個向量

它們之間的manhattan

distance

為:

(3)minkowsk

distance

(閔可夫斯基

距離)

設有兩個向量

它們之間的minkowsk

distance

為:

(4)hamming

distance(海明

距離)hamming

distance可以用來度量兩個串(通常是二進位制串)的距離,其定義為這兩個二進位制串對應的位有幾個不一樣,那麼海明距離就是幾,值越小越相似。例如x=1010,y=1011,那麼x和y的海明距離就是1。又如x=1000,y=1111,那麼x和y的海明距離就是3。

(5)

jaccard

coefficient

(jaccard係數

jaccard

coefficient用來度量兩個集合的相似度,設有兩個集合

coefficient定義為:

例如(6)pearson correlation coefficient

(皮爾森相關係數

設有兩個向量

它們之間的

pearson correlation coefficient為:

余弦相似度

設有兩個向量

它們之間的

cosine similarity

為:

(8)mahalanobis distance

(馬氏距離)

設有兩個向量

它們之間的

mahalanobis distance

為:其中

(9)kullback-leibler divergence

(kl散度)

kl散度用來度量兩個分布之間的距離,

分布p和分布q的

kl散度定義為:

(pointwise mutual information,點對互資訊)

pmi利用co-occurance來衡量兩個東西x和y的相似度,定義為:

其中(11)ngd(normalizedgoogle

distance)

ngd可以用來度量兩個東西x和y之間的相關性,作用和pmi有點類似,定義為:

其中

相似性度量

二元向量的相似性度量 每一維都少的資訊量,主要是0,1等有 or 沒有屬性 dice 2 x y x y 2保證 0,1 維數不一致時,差別大。jaccard x y x y 交疊程度小時,值較低 交疊係數 x y min 互相之間的包含性,1 cosine x y 根號 x y 對於實值 只有co...

相似性度量

一般而言,定義乙個距離函式d x,y 需要滿足以下幾個準則 1.d x,x 0 到自己的距離為0 2.d x,y 0 距離要非負 3.對稱性,d x,y d y,x 如果a到b距離是a,那麼b到a的距離也應該是a 4.三角形法則 兩個之和大於第三邊 d x,k d k,y d x,y 滿足這4個條件...

使用者相似性度量

pearsoncorrelationsimilarity 皮爾遜相關係數 原理 度量兩個意義對應數列之間的線性相關程度,即度量兩個數列中數字一起增大或一起減小的可能性。場景 用於度量兩個使用者之間的相似性,度量兩個使用者針對同一物品的偏好值變化趨勢的一致性。優點 結果直觀。缺點 沒有考慮到兩個使用者...