相似性度量的方法分類

一、變換域：

dtw、erp都是不設定閾值，直接計算其歐氏距離。

edr、lcss都是設定乙個絕對閾值，滿足閾值變成0或者1。

cats：設定乙個閾值，不滿足閾值取0，滿足閾值縮放到[0,1]區間中。

frechet：不設定閾值，直接計算其歐氏距離。

hausdorff：根據兩條線段計算三種距離並加權取和。

二、處理不匹配點的方式

dtw、frechet：重複使用某些點

erp：不匹配的點會被用來和原點計算距離

edr：不匹配的點會作為懲罰手段，為edr最終取值+1

lcss：不匹配的點會被忽略

cats：不匹配的點會被忽略

hausdorff：比較特殊，它不涉及這方面的處理。

三、求得最終結果的途徑：

dtw、erp、edr、lcss都是取和。其中dtw、lcss根據軌跡點集長度，取了平均。edr、erp沒有取平均。

cats選取最好匹配點的距離（得分函式）取和，並取了平均。

frechet是對所有的的最優匹配（重複使用某些點）取最大。

hausdorff比較特殊，它只能計算出乙個絕對的數，而且是兩個線段之間的距離，因此不能作為完整的軌跡的相似度的衡量。

一、雜訊（強度不大的）

dtw、erp、cats、frechet受到影響，但是由於雜訊一般都是正態分佈的，其影響應該有限。

edr、lcss消除比較好（要設定合適的閾值）。對於空間上偏移不大的點，全部量化稱0、1，消除了雜訊。

雜訊主要是通過變換域情況看出來的，對於不設定閾值或者設定閾值但是最終結果是連續的變換方式，會有影響。

二、離群點（強烈的雜訊）

dtw、erp、frechet收到很強的影響。由於這三者都不設定閾值，會導致雜訊點對最終的結果產生很大的影響。

edr、lcss、cats：收到小幅度的影響，由於設定了閾值，會自動把離群點過濾掉或者進行特殊處理，因此對最終結果影響不大。

因此，空間上的偏移可以使用閾值檢測的方式來加以限制。

三、取樣率不一

dtw、lcss、cats：影響不大，因為取了平均。

edr、erp：不同長度的軌跡影響很大，因為沒有取平均。

frechet：有一定的影響：主要是由於取樣率不一，導致某些距離邊長引起的。（當取樣點數越均勻、越多，影響越小，離散frechet也越接近於連續的frechet）

顯然，取樣率不一的影響大小取決於是否取均值。

四、時間偏移：

除了歐氏距離之外的所有的演算法都聲稱自己支援local time shifting，但是實際上這個「支援」僅僅是能依據定義把計算持續下去。但是能否偏移的好的資料挑選出來，是乙個大問題。比如下圖：

黑色為真實路徑，藍色為**路徑a、紅色為**路徑b。無法**的原因是：每乙個藍點和兩個黑點之間的距離要比紅點到黑點之間的距離更大。儘管藍點看起來更像是在黑點的軌跡上。

以上六種方法，沒有一種能夠把偏移了的正確的曲線識別出來。

造成這個情況的本質是，以上的方法計算的距離都是點和點之間的距離。而想要克服這種情況，有兩種方式。

一、有足夠精細的聚類，為每乙個cluster都給出乙個代表性的軌跡，且此軌跡取樣點必須足夠多（至少至少要比查詢軌跡的間隔小兩倍）。在這種情況下，edr（必須修正取均值，以適應取樣率不一的情況）、lcss方法可以直接忽略掉時間的偏移，因為他們的變換域的變換結果是二值的（閾值必須小於參考模版時間間隔）。但這對聚類結果的要求變得很高，對計算能力的要求相應的也變得很高。

二、開發一種新的方法，使用線段之間的度量方法hausdorff。但是又會受到取樣率不一的影響，需要對hausdorff方法再次進行改進。同時這種方法也需要一定程度上提高模版軌跡的理想程度，可以不如方法一高。

最終：每種度量資料相似度的方法都有不同優缺點，只有找到適合自己資料的的才是最優的。

相似性度量的方法分類

相似性度量

相似性度量

使用者相似性度量

相關推薦