馬氏距離詳解

2021-09-29 07:18:58 字數 2802 閱讀 6037

三、例項認知

四、公式推導

致謝從下往上的一段50公尺長的坡道路,下面定乙個a點,上面定b乙個點。假設有兩種情況從a到b:

a)坐手扶電梯上去。

b)從手扶電梯旁邊的樓梯爬上去。

兩種情況下我們分別會產生兩種不同的主觀感受,坐電梯輕鬆愉快,感覺很快就從a到了b——「a與b真近~」;走樓梯爬的氣喘吁吁很累,感覺走了好久才走到b——「a與b真遠!」。

**落日之時,由於大氣的折射效應,太陽形狀產生形變並且視覺位置也比真實位置高。

馬氏距離有些統計上的意味,下式中的s指協方差(同σx )

與歐式距離的差距來自下圖,歐式是強行求距離,而馬氏是經過乙個尋找最適座標位置(更看重當前點在各維度的地位)。嘛…有點pca的韻味在裡面。

首先我們先看個二維的例子。

此例的資料重心為原點,p1,p2到原點的歐氏距離相同,但點p2在y軸上相對原點有較大的變異,而點p1在x軸上相對原點有較小的變異。所以p1點距原點的直觀距離是比p2點的小的。

馬氏距離就是解決這個問題,它將直觀距離和歐式距離統一。為了做到這一點,它先將資料不同維度上的方差統一(即各維度上的方差相同),此時的歐式距離就是直觀距離。

如圖:統一方差後的圖,p1』到原點的距離小於p2』。p1』到原點的歐式距離和p2』的相同。以上所說的直觀距離就是馬氏距離 。但是,如果不同維度之間具有相關性,則壓縮的效果就不好了。如下圖只在橫向和縱向上壓縮,則達不到上圖的壓縮效果。

所以在f1方向和f2方向上壓縮資料才能達到較好的效果。所以需要將原始資料在xy座標系中的座標 表示在f座標系中。然後再分別沿著座標軸壓縮資料。

所以,計算樣本資料的馬氏距離分為兩個步驟:

1、座標旋轉

2、資料壓縮

座標旋轉的目標:使旋轉後的各個維度之間線性無關,所以該旋轉過程就是主成分分析的過程。

資料壓縮的目標:將不同的維度上的資料壓縮成為方差都是1的的資料集。

有乙個原始的多維樣本資料xn×m(m列,n行):

其中每一行表示乙個測試樣本(共n個);xi表示樣本的第i個維度(共m個) xi=(x1i,x2i,…,xni)t ,以上多維樣本資料記為x=(x1,x2⋯xm)。樣本的總體均值為μx=(μx1,μx2⋯μxm)。其協方差為:

協方差矩陣表示樣本資料各維度之間的關係的。其中n是樣本的數量

假設將原始資料集x通過座標旋轉矩陣u旋轉到新的座標系統中得到乙個新的資料集f。(其實xf表示的是同一組樣本資料集,只是由於其座標值不同,為了易於區分用了兩個字母表示)

新資料集f的均值記為μf = μf1, μf2⋯ μfm , μf = uμx

由於將資料集旋轉後資料的各維度之間是不相關的,所以新資料集f的協方差矩陣σf應該為對角陣。

由於:

所以:其中sqrt(λi)就是第i個維度的方差。

由於σx是實對角陣,所以u是乙個正交矩陣ut=u-1

以上是準備知識,下面推導乙個樣本點x=(x1,x2⋯xm)到重心μx=(μx1,μx2⋯μxm)的馬氏距離。等價於求點 f=(f1,f2⋯fm) 壓縮後的座標值到資料重心壓縮後的座標值 μf=(μf1,μf2⋯μfm)的歐式距離。

這就是馬氏距離的的計算公式了。

如果x是列向量

d2 = ( x − μx )t σ-1

x ( x − μx )

如果並把上文的重心 μx = ( μx1, μx2⋯ μxm) 改為任意乙個樣本點y,則可以得到xy兩個樣本點之間的馬氏距離公式為:

d2 = ( x − y )tς-1

x ( x − y )

工作中遇到了馬氏距離,多方查詢資料,才對馬氏距離有乙個全面的認識。在此,將自己在學習過程中認為比較重要的點整理如上,感謝前輩大佬們的分享!

距離度量之馬氏距離

用來度量乙個樣本點 與資料分布為 的集合的距離。假設樣本點為 資料集分布的均值為 協方差矩陣為 則這個樣本點 與資料集合的馬氏距離為 馬氏距離也可以衡量兩個來自同一分布的樣本x和y的相似性 當樣本集合的協方差矩陣是單位矩陣時,即樣本的各個維度上的方差均為 馬氏距離就等於歐式距離相等。當協方差矩陣是對...

距離度量之馬氏距離

用來度量乙個樣本點 與資料分布為 的集合的距離。假設樣本點為 資料集分布的均值為 協方差矩陣為 則這個樣本點 與資料集合的馬氏距離為 馬氏距離也可以衡量兩個來自同一分布的樣本x和y的相似性 當樣本集合的協方差矩陣是單位矩陣時,即樣本的各個維度上的方差均為 馬氏距離就等於歐式距離相等。當協方差矩陣是對...

馬氏距離與歐式距離

1 歐式距離 2 標準歐式距離 3 馬氏距離 4 測試 構造資料,構建乙個長軸為2短軸為1的橢圓 測試兩個點到質心的距離綠色的點x1 1,0 和黃色的點x2 0,0.8 通過計算歐式距離發現x2距離質心更近一些,但是計算馬氏距離和標準歐式距離卻又是x1距離的更近些 很直接的原因就是長軸的方差比較大,...