常見距離演算法小結

2021-08-31 03:46:51 字數 2468 閱讀 9412

又稱歐幾里得距離,其源自於歐式空間中計算兩點間的距離公式,是最易於理解的一種距離計算方法。也可推廣到資料探勘中廣義的多維度空間。

又稱城市街區距離、棋盤距離。我們可以定義曼哈頓距離的正式意義為:在歐幾里得空間的固定直角座標系上的兩點所形成的的線段對軸產生的投影的距離總和。

切比雪夫距離起源於西洋棋中國王的走法,我們知道西洋棋國王每次只能往周圍的8格中走一步。那麼從(x1, y1)走到(x2, y2)最少需要max(|x2-x1|, |y2-y1|)。拓展到無窮維就是:

又稱明氏距離或閔式距離。明氏距離是歐氏距離的推廣,是對多個距離度量公式的概括性表述。明氏距離不是一種距離,而是一組距離的定義。兩個n維變數的明氏距離定義為:

其中p是乙個變引數。當p=1時,就是曼哈頓距離;當p=2時,就是歐氏距離。

既然歐幾里得距離無法忽略指標度量的差異,所以在使用歐氏距離之前需要對底層指標進行資料的標準化,而基於各指標維度進行標準化後再使用歐氏距離就衍生出來另外乙個距離度量:馬哈拉諾比距離,簡稱馬氏距離。

假設有m個樣本向量x1-xm,協方差矩陣記為s,均值記為向量u,則樣本向量x到u的馬氏距離表示為:

其中,xi與xj之間的距離公式為:

兩個等長字串s1與s2之間的漢明距離定義為將其中乙個變為另外乙個所需要做的最小替換次數。例如字串「1111」與「1001」之間的漢明距離為2。

在資訊編碼中,為了增強容錯性,應使得編碼間的最小漢明距離盡可能大。

傑卡德距離用兩個集合中不同元素佔所有元素的比例來衡量兩個集合的區分度,可用如下公式表示:

相關距離的定義為(其中pxy為相關係數):

相關係數是衡量兩個特徵列之間相關程度的一種方法,取值範圍[-1,1]。

相關係數的絕對值越大,表明特徵列x和y的相關程度越高。

當取值為1時表明正線性相關,-1時表明負線性相關。

hausdorff距離是描述兩組點集之間相似程度的一種度量,它是兩個點集之間距離的一種定義形式:

假設有兩組集合a=,b=,則這個兩點即之間的hausdorff距離定義為:

其中(||.||是點集ab之間的距離正規化)

在統計學中,巴氏距離(巴塔恰里雅距離 / bhattacharyya distance)用於測量兩離散概率分布。它常在分類中測量類之間的可分離性。在同一定義域x中,概率分布p和q的巴氏距離定義如下:(其中bc(p,q)是bhattacharyya係數)。

(1)離散概率分布

(2)連續概率分布

emd(earth mover』s distance)距離最早是來自著名的運輸問題的求解,後由rubner把emd距離引入了影象檢索中。它可以求解某個特徵空間中兩個多維分布之間的不相似性,通常單個特徵之間的距離是給定的並稱此距離,為地面距離。

給定兩個直方圖,乙個分布h可以看成是一堆土的集合,另乙個分布g可以看成是很多洞的集合,不同的土和洞之間的地面距離是不同的。從而,emd可以計算出用土填滿所有洞的最小工作量或最小代價,此處單位工作量定義為運輸單位土時經過單位地面距離的工作量。這樣emd可以定義為:

kl距離是兩個概率密度函式p(x)和p^(x)之間距離的測度,其定義為:

有時稱kl距離為交叉熵或相關熵。

幾何中夾角余弦用來衡量兩個向量方向的差異,機器學習中借用這一概念衡量樣本向量之間的差異。

余弦相似度與向量的幅值無關,至於向量的方向相關,在文件相似度和相似度計算都有他的身影,需要注意一點的是:余弦相似度受到向量的平移影響,就是當x平移到x+1時,余弦值就會改變。夾角余弦的取值範圍為[-1,1]。

兩個n維樣本點a(x11,x12,…,x1n)與點b(x21,x22,…,x2n)之間的夾角余弦為:

常見排序演算法小結

常見排序演算法時間和複雜度如下圖 氣泡排序核心 對於陣列a n for int i 0 i 改進 即使當發現陣列已經有序是跳出迴圈,使用方法就是在設定乙個flag,發現第二層的for迴圈一次都沒有進行交換就是表明陣列已經是有序的。時間複雜度o n 2 插入排序有3種,直接插入排序,二分插入排序,希爾...

常見加密演算法小結

1.des 2.md5 3.aes 4.sha 衡量乙個加密演算法的優劣性,主要從以下幾個方面考慮 1.是否足夠安全,2.機密過程耗時長短 下面文字摘自百空間 乙個加密系統s可以用數學符號描述如下 s 其中 p 明文空間,表示全體可能出現的明文集合,c 密文空間,表示全體可能出現的密文集合,k 金鑰...

常見的排序演算法小結

一 根據時間複雜度對排序演算法進行分類,其中n為資料樣本個數 1 複雜度為平方階o n 2 冒泡 選擇 插入排序 2 複雜度為o nlogn 快速 堆 歸併排序 3 複雜度為o n 1 希爾排序,其中 是介於0到1之間的 4 線性階o n 桶 箱 基數排序 二 排序演算法穩定性分析 1 穩定性的演算...