相似性和相異性的度量

2021-07-13 05:55:12 字數 508 閱讀 8790

相似性和想異性是重要的概念,被許多資料探勘技術所使用:聚類、最近鄰分類、異常檢測等

在許多情況下,一旦計算出相似性或相異性,就不再需要原始資料了

這種方法可以看做將資料變換到相似性(相異性)空間,然後進行分析

鄰近度(proximity)----相關、歐幾里得距離、jaccard距離、余弦相似性

(稠密資料、二維點)(文件  稀疏資料)

1、相似度【0,1】

1)簡單屬性

2)資料物件

距離:閔可夫斯基距離:

r=1城市街區距離(l1範數)

r=2歐幾里得距離(l2範數)

r=無窮 lmax距離

特性:非負性、對稱性、三角不等式()通常不成立

[1]二元資料的相似性度量    jaccard相似性係數

余弦相似度    文件用向量表示,向量的每個屬性代表乙個特定的詞在文件中出現的頻率

廣義jaccard函式

相關性  corr(x,y)   物件屬性之間線性聯絡的度量

第二章 相似性和相異性度量 資料 資料預處理

資料型別 定量 定性 屬性是物件的性質 特徵,測量標度是將數值或符號值與物件的屬性相關聯的規則 函式 屬性型別 屬性的性質不必與用來度量他的值的性質相同 屬性的不同 相異性 序 加法 乘法 四種屬性型別 標稱和序數 分類的 定性的 區間和比率 數值的 定量的 非對稱屬性 如果屬性值具有相同的權重,則...

相似性度量

二元向量的相似性度量 每一維都少的資訊量,主要是0,1等有 or 沒有屬性 dice 2 x y x y 2保證 0,1 維數不一致時,差別大。jaccard x y x y 交疊程度小時,值較低 交疊係數 x y min 互相之間的包含性,1 cosine x y 根號 x y 對於實值 只有co...

相似性度量

一般而言,定義乙個距離函式d x,y 需要滿足以下幾個準則 1.d x,x 0 到自己的距離為0 2.d x,y 0 距離要非負 3.對稱性,d x,y d y,x 如果a到b距離是a,那麼b到a的距離也應該是a 4.三角形法則 兩個之和大於第三邊 d x,k d k,y d x,y 滿足這4個條件...