距離度量之馬氏距離

用來度量乙個樣本點ｐ與資料分布為ｄ的集合的距離。

假設樣本點為：

資料集分布的均值為：

協方差矩陣為ｓ。

則這個樣本點ｐ與資料集合的馬氏距離為：

馬氏距離也可以衡量兩個來自同一分布的樣本x和y的相似性：

當樣本集合的協方差矩陣是單位矩陣時，即樣本的各個維度上的方差均為１．馬氏距離就等於歐式距離相等。

當協方差矩陣是對角矩陣時，即樣本資料在各個維度上的方差可能不為１．此時，

可以看做是標準化了的歐氏距離。其中，ｓi為樣本資料在第ｉ個維度上的標準差。

想判斷乙個點是否屬於乙個集合，首先計算出這個集合的中心點（通過計算這個集合中所有樣本的均值向量可以得到），然後求出這個點到中心點的距離，若大於乙個閾值則認為不屬於這個集合。但是這樣有個問題，有的集合包含的範圍比較大，待分類樣本雖然離此集合中心點較其他集合的中心點遠，但實際上屬於這個集合，這就是尺度對分類結果的影響。為了消除這個影響，計算出集合中所有資料點到中心點的平均距離，這樣，範圍大的集合計算出來的平均距離就會較範圍小的集合平均距離大，這個平均距離就是下式中的分母：標準差。

上式使得馬氏距離具有尺度不變性。

但是這樣還有問題，上面的式子只適合集合是圓形區域分布的，如下圖：

對於下面的橢圓形例子，ａ點距離中心點更近，但是ａ點離集合邊緣更近，更危險，一不小心就不屬於這個集合了。所以僅僅通過上式得到的距離來衡量乙個點屬於乙個集合的概率是不準確的。

假設乙個樣本集合的維度是ｎ，資料在各個維度上的方差已知（方差較大的方向是資料主要的變化方向），可以把方差看做各個方向上的軸長，方差越大，軸越長，資料點在這個方向上就越不容易掉下懸崖，也就越安全。如果待測樣本在各個維度上與集合中心的距離都遠遠小於這個維度上的軸長，那麼這個樣本屬於集合的概率就越大。協方差矩陣的對角線元素就代表了各個維度上的方差。

再次看上式，可以認為，對每乙個待測樣本，都計算一下其與集合中心的距離，接著，在各個方向上均除以軸長（協方差矩陣求逆），最後再乘起來，整個結果越小則說明樣本越靠近集合的中心。

這個我也不太清楚，我猜是它們的存在使得馬氏距離可以將樣本不同緯度特徵的相關性關聯起來。

參考**：

距離度量之馬氏距離

距離度量之馬氏距離

馬氏距離與歐式距離

馬氏距離vs歐式距離

距離度量之馬氏距離

距離度量之馬氏距離

馬氏距離與歐式距離

馬氏距離vs歐式距離

相關推薦