機器學習 「距離」 「相似度」相關總結

2021-09-19 12:42:17 字數 1842 閱讀 6982

在機器學習中,往往通過計算距離、相似度來進行兩類別之間的判別,尤其是在自然語言處理領域有著重要應用,這些概念大多源於數學領域的度量、測量等概念。

英文名中文名

公式說明

euclidean distance

歐式距離

以古希臘數學家歐幾里得命名的距離;也就是我們直觀的兩點之間直線最短的直線距離

manhattan distance

曼哈頓距離

是使用在幾何度量空間的幾何學用語,用以標明兩個點在標準座標系上的絕對軸距總和;也就是和象棋中的「車」一樣橫平豎直的走過的距離;曼哈頓距離是超凸度量

minkowski distance

閔氏距離

是歐式距離的推廣,p=2時等價於歐氏距離,和p-範數等值

hamming distance

海明距離

逐個字元(或逐位)對比,統計不一樣的位數的個數總和

所得值越小,參與對比的兩個元素約相似

pearson correlation

皮爾森相關係數

分子是兩個集合的交集大小,分母是兩個集合大小的幾何平均值。是余弦相似性的一種形式

cosine similarity

余弦相似度

mahalanobis distance

馬氏距離

其中s是x和y的協方差矩陣

印度統計學家馬哈拉諾比斯(p. c. mahalanobis)提出的,表示資料的協方差距離。它是一種有效的計算兩個未知樣本集的相似度的方法;若協方差矩陣是對角陣(diagonal),則該距離退化為歐式距離

kullback-leibler divergence

k-l散度

即相對熵;是衡量兩個分布(p、q)之間的距離;越小越相似

pmi(pointwise mutual information)

點對互資訊

pmi=logp(x,y)p(x)p(y)=logp(y|x)p(y)

利用co-occurance來衡量x和y的相似度;越大越相關;可以看做區域性點的互資訊(mutual information)

ngd(normalized google distance)

這是google用來衡量兩個不同的關鍵字(keyword)的檢索結果之間的相關程度;其中f(x)代表包含了關鍵字x的頁面數量,f(x,y)代表同時包含了關鍵字x和關鍵字y的頁面的數量,m代表google所搜尋的總頁數;若兩個關鍵字總是成對出現在頁面上,那麼ngd值為0,相反的,如果兩個關鍵字在所有頁面上都沒有同時出現過,那麼ngd值為無窮;該量是從normalized compression distance (cilibrasi & vitanyi 2003)衍生而來的

levenshtein distance(edit distance)

levenshtein距離(編輯距離)

是指兩個字串之間,由乙個轉成另乙個所需的最少編輯操作次數

lee distance

李氏距離

在編碼理論(coding theory)中兩個字串間距離的一種度量方法

chebyshev distance

切比雪夫距離

切比雪夫距離是由一致範數(uniform norm)(或稱為上確界範數)所衍生的度量,也是超凸度量

距離和相似度計算總結

閔可夫斯基距離minkowsli p x1,x2,x n an dq y1,y 2,yn rn 是衡量數值點之間距離的一種非常常見的方法,假設數值點 p 和 q座標如上 那麼,閔可夫斯基距離定義為 dist x,y i 1n xi yi p 1p 當p 2時,表示的是歐幾里得距離 euclidean...

機器學習 相似程度 曼哈頓距離

曼哈頓距離演算法 首先介紹一下曼哈頓,曼哈頓是乙個極為繁華的街區,高樓林立,街道縱橫,從a地點到達b地點沒有直線路徑,必須繞道,而且至少要經c地點,走ac和 cb才能到達,由於街道很規則,acb就像乙個直角3角形,ab是斜邊,ac和cb是直角邊,根據畢達格拉斯 勾股 定理,或者向量理論,都可以知道用...

相似性度量 機器學習距離公式總結

所有距離公式列表 嚴格意義上來看,閔可夫斯基距離不是一種距離,而是一組距離的定義。兩個n維向量 a x11,x12,x1n 與 b x2 1,x2 2,x2 n 間的閔可夫斯基距離為 其中 是乙個變引數 因此我們根據 引數的不同,閔可夫斯基距離可以表示一類距離。歐式距離即l2範數,是歐式空間兩點間的...