相似性度量的方法分類

2021-10-04 11:42:37 字數 1937 閱讀 6626

相似性度量的方法分類

一、變換域:

dtw、erp都是不設定閾值,直接計算其歐氏距離。

edr、lcss都是設定乙個絕對閾值,滿足閾值變成0或者1。

cats:設定乙個閾值,不滿足閾值取0,滿足閾值縮放到[0,1]區間中。

frechet:不設定閾值,直接計算其歐氏距離。

hausdorff:根據兩條線段計算三種距離並加權取和。

二、處理不匹配點的方式

dtw、frechet:重複使用某些點

erp:不匹配的點會被用來和原點計算距離

edr:不匹配的點會作為懲罰手段,為edr最終取值+1

lcss:不匹配的點會被忽略

cats:不匹配的點會被忽略

hausdorff:比較特殊,它不涉及這方面的處理。

三、求得最終結果的途徑:

dtw、erp、edr、lcss都是取和。其中dtw、lcss根據軌跡點集長度,取了平均。edr、erp沒有取平均。

cats選取最好匹配點的距離(得分函式)取和,並取了平均。

frechet是對所有的的最優匹配(重複使用某些點)取最大。

hausdorff比較特殊,它只能計算出乙個絕對的數,而且是兩個線段之間的距離,因此不能作為完整的軌跡的相似度的衡量。

一、雜訊(強度不大的)

dtw、erp、cats、frechet受到影響,但是由於雜訊一般都是正態分佈的,其影響應該有限。

edr、lcss消除比較好(要設定合適的閾值)。對於空間上偏移不大的點,全部量化稱0、1,消除了雜訊。

雜訊主要是通過變換域情況看出來的,對於不設定閾值或者設定閾值但是最終結果是連續的變換方式,會有影響。

二、離群點(強烈的雜訊)

dtw、erp、frechet收到很強的影響。由於這三者都不設定閾值,會導致雜訊點對最終的結果產生很大的影響。

edr、lcss、cats:收到小幅度的影響,由於設定了閾值,會自動把離群點過濾掉或者進行特殊處理,因此對最終結果影響不大。

因此,空間上的偏移可以使用閾值檢測的方式來加以限制。

三、取樣率不一

dtw、lcss、cats:影響不大,因為取了平均。

edr、erp:不同長度的軌跡影響很大,因為沒有取平均。

frechet:有一定的影響:主要是由於取樣率不一,導致某些距離邊長引起的。(當取樣點數越均勻、越多,影響越小,離散frechet也越接近於連續的frechet)

顯然,取樣率不一的影響大小取決於是否取均值。

四、時間偏移:

除了歐氏距離之外的所有的演算法都聲稱自己支援local time shifting,但是實際上這個「支援」僅僅是能依據定義把計算持續下去。但是能否偏移的好的資料挑選出來,是乙個大問題。比如下圖:

黑色為真實路徑,藍色為**路徑a、紅色為**路徑b。無法**的原因是:每乙個藍點和兩個黑點之間的距離要比紅點到黑點之間的距離更大。儘管藍點看起來更像是在黑點的軌跡上。

以上六種方法,沒有一種能夠把偏移了的正確的曲線識別出來。

造成這個情況的本質是,以上的方法計算的距離都是點和點之間的距離。而想要克服這種情況,有兩種方式。

一、有足夠精細的聚類,為每乙個cluster都給出乙個代表性的軌跡,且此軌跡取樣點必須足夠多(至少至少要比查詢軌跡的間隔小兩倍)。在這種情況下,edr(必須修正取均值,以適應取樣率不一的情況)、lcss方法可以直接忽略掉時間的偏移,因為他們的變換域的變換結果是二值的(閾值必須小於參考模版時間間隔)。但這對聚類結果的要求變得很高,對計算能力的要求相應的也變得很高。

二、開發一種新的方法,使用線段之間的度量方法hausdorff。但是又會受到取樣率不一的影響,需要對hausdorff方法再次進行改進。同時這種方法也需要一定程度上提高模版軌跡的理想程度,可以不如方法一高。

最終:每種度量資料相似度的方法都有不同優缺點,只有找到適合自己資料的的才是最優的。

相似性度量

二元向量的相似性度量 每一維都少的資訊量,主要是0,1等有 or 沒有屬性 dice 2 x y x y 2保證 0,1 維數不一致時,差別大。jaccard x y x y 交疊程度小時,值較低 交疊係數 x y min 互相之間的包含性,1 cosine x y 根號 x y 對於實值 只有co...

相似性度量

一般而言,定義乙個距離函式d x,y 需要滿足以下幾個準則 1.d x,x 0 到自己的距離為0 2.d x,y 0 距離要非負 3.對稱性,d x,y d y,x 如果a到b距離是a,那麼b到a的距離也應該是a 4.三角形法則 兩個之和大於第三邊 d x,k d k,y d x,y 滿足這4個條件...

使用者相似性度量

pearsoncorrelationsimilarity 皮爾遜相關係數 原理 度量兩個意義對應數列之間的線性相關程度,即度量兩個數列中數字一起增大或一起減小的可能性。場景 用於度量兩個使用者之間的相似性,度量兩個使用者針對同一物品的偏好值變化趨勢的一致性。優點 結果直觀。缺點 沒有考慮到兩個使用者...