資料探勘學習筆記數值屬性的鄰近性度量

資料標準化

數值屬性的相異性側度

閔可夫斯基距離特殊形式

計算例子

數值屬性相異性計算之前，一般先進行資料標準化處理。數值屬性的資料為連續型資料，且對於不同的數值屬性，其數值的範圍可能相差較大，有的區間長度很小，有的區間長度卻很大，這時應對數值屬性做規範化處理（按比例放縮），使得所有的數值屬性都在某乙個相同的區間內，這使得每乙個數值屬性都具有相同的權重。通常，數值屬性規範化到區間[-1,1]或[0,1]。

處理方法有多種，各有利弊，下面介紹的是z-score標準化

z-score：

x：需標準化的原始數值，μ：總體均值，σ：標準差

z亦表示在標準偏差單位下，原始分數和總體均值之間的距離，標準化後的變數值圍繞0上下波動，大於0說明高於平均水平，小於0說明低於平均水平。

※若是逆指標，需要將逆指標前的正負號對調。(逆指標：也稱反指標,它是指在一定的條件下,指標的數值越小越好的指標。例如,單位運輸成本指標。)

經過處理的資料符合標準正態分佈，即均值為0，標準差為1，注意，一般來說z-score不是歸一化，而是標準化，歸一化只是標準化的一種。

z-score標準化方法適用於屬性a的最大值和最小值未知的情況，或有超出取值範圍的離群資料的情況。該種標準化方式要求原始資料的分布可以近似為高斯分布，否則效果會變得很糟糕。

還有乙個常用的方法：min-max標準化，是對原始資料的線性變換，使結果落到[0,1]區間

其中max為樣本資料的最大值，min為樣本資料的最小值。

閔可夫斯基距離（曼哈頓距離、歐幾里得距離、上確界距離）

上圖的上確界距離中，以x1，x2為例，|x1_attribute1 - x2_attribute1|=2，|x1_attribute2 - x2_attribute2|=3，所以x1、x2的上確界距離為max(2,3)=3

資料探勘學習筆記數值屬性的鄰近性度量

資料探勘學習筆記二元屬性的鄰近性度量

資料探勘學習筆記資料探勘的方法和技術

python學習筆記數值

資料探勘學習筆記 數值屬性的鄰近性度量

資料探勘學習筆記 二元屬性的鄰近性度量

資料探勘學習筆記 資料探勘的方法和技術

python學習筆記 數值

相關推薦

資料探勘學習筆記數值屬性的鄰近性度量

資料探勘學習筆記二元屬性的鄰近性度量

資料探勘學習筆記資料探勘的方法和技術

python學習筆記數值