資料探勘學習筆記 數值屬性的鄰近性度量

2021-10-04 18:56:49 字數 1186 閱讀 5493

目錄

資料標準化

數值屬性的相異性側度

閔可夫斯基距離特殊形式

計算例子

數值屬性相異性計算之前,一般先進行資料標準化處理。數值屬性的資料為連續型資料,且對於不同的數值屬性,其數值的範圍可能相差較大,有的區間長度很小,有的區間長度卻很大,這時應對數值屬性做規範化處理(按比例放縮),使得所有的數值屬性都在某乙個相同的區間內,這使得每乙個數值屬性都具有相同的權重。通常,數值屬性規範化到區間[-1,1]或[0,1]。

處理方法有多種,各有利弊,下面介紹的是z-score標準化

z-score:

x:需標準化的原始數值,μ:總體均值,σ:標準差

z亦表示在標準偏差單位下,原始分數和總體均值之間的距離,標準化後的變數值圍繞0上下波動,大於0說明高於平均水平,小於0說明低於平均水平。

※若是逆指標,需要將逆指標前的正負號對調。(逆指標:也稱反指標,它是指在一定的條件下,指標的數值越小越好的指標。例如,單位運輸成本指標。)

經過處理的資料符合標準正態分佈,即均值為0,標準差為1,注意,一般來說z-score不是歸一化,而是標準化,歸一化只是標準化的一種。

z-score標準化方法適用於屬性a的最大值和最小值未知的情況,或有超出取值範圍的離群資料的情況。該種標準化方式要求原始資料的分布可以近似為高斯分布,否則效果會變得很糟糕。

還有乙個常用的方法:min-max標準化,是對原始資料的線性變換,使結果落到[0,1]區間

其中max為樣本資料的最大值,min為樣本資料的最小值。

閔可夫斯基距離(曼哈頓距離、歐幾里得距離、上確界距離)

上圖的上確界距離中,以x1,x2為例,|x1_attribute1 - x2_attribute1|=2,|x1_attribute2 - x2_attribute2|=3,所以x1、x2的上確界距離為max(2,3)=3

資料探勘學習筆記 二元屬性的鄰近性度量

二元屬性 0和1.顯而易見,0表示不出現,1表示出現 分為 對稱性和非對稱性 對稱性二元屬性 兩個個狀態同等重要 非對稱性 兩個狀態不是同等重要的 更重要的 機率較小的賦值1 兩個都取1 正匹配 比兩個都取0 負匹配 的情況更有意義 鄰近性度量 為相異性和相似性度量 問 如何刻畫對稱二元屬性之間的相...

資料探勘學習筆記 資料探勘的方法和技術

分類 先給類別特點,再做判斷 可用於離散變數的取值 用來預報某些未知的或丟失的數字值 通過對具有類別的物件的資料集進行學習,概括其主要特徵,構建分類模型,根據該模型 物件的類別的一種資料探勘和機器學習技術。聚類 沒有類別的情況下,根據物件特徵自己聚類 自己總結各種特徵,得出結論 準確率可能沒有分類高...

python學習筆記 數值

獲取圓周率不同的精度 import math for precision in range 10 print round math.pi,precision int,round,math.floor的不同之處 import math for n in 2,7,1.2,1.7,2,7,1.2 1.7 ...