資料歸一化和相似性

2021-07-07 05:29:48 字數 912 閱讀 1517

資料標準化(歸一化)處理是資料探勘的一項基礎工作,不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到資料分析的結果,為了消除指標之間的量綱影響,需要進行資料標準化處理,以解決資料指標之間的可比性。原始資料經過資料標準化處理後,各指標處於同一數量級,適合進行綜合對比評價。以下是兩種常用的歸一化方法:

一、min-max標準化(min-max normalization)

也稱為離差標準化,是對原始資料的線性變換,使結果值對映到[0 - 1]之間。轉換函式如下:

其中max為樣本資料的最大值,min為樣本資料的最小值。這種方法有個缺陷就是當有新資料加入時,可能導致max和min的變化,需要重新定義。

二、z-score標準化方法

這種方法給予原始資料的均值(mean)和標準差(standarddeviation)進行資料的標準化。經過處理的資料符合標準正態分佈,即均值為0,標準差為1,轉化函式為:

其中三、**實現和資料

輸出如下:

相似度(sim)的範圍[-1,1],相當於把-1轉化為無窮大,把1轉化為0。

公式:dist=-log(sim/2+0.5)

公式:相似度=1/(1+距離)

1.     先求歐式距離,再根據公式:相似度=1/(1+距離),得出相似度

2.     皮爾遜相關係數。

3.     先余弦相似度,因為取值範圍是[-1,1],所以再歸一化。

相似度=(余弦相似度+1)/2。

資料相似性

首先模擬一些資料出來 假設有這樣一些id是1 5的條目,然後有幾個人對他們看過的條目進行了評分 1 5 那麼我們可能有這樣的一組資料,格式是 人名 a b c 給定兩個人,如何計算他們的相似度,比如,在b和c裡,誰和a的評分最相似?給出一些方法 1 簡單匹配係數 matching coefficie...

距離和相似性度量

相似性度量或者距離函式對於像聚類,鄰域搜尋這樣的演算法是非常重要的。前面也提到,網頁去重複也是相似性應用的乙個例子。然而,如何定義個合適的相似或者距離函式,完全依賴於手頭的任務是什麼。一般而言,定義乙個距離函式d x,y 需要滿足以下幾個準則 1.d x,x 0 到自己的距離為0 2.d x,y 0...

資料相似性的度量方法總結

現實中,我們需要處理的資料具有著不同的形式和特徵。而對資料相似性的度量又是資料探勘分析中非常重要的環節。針對這些不同形式的資料,不可能找到一種具備普遍意義的相似性度量演算法,甚至可以說,每種型別的資料都有它對應的相似度度量標準。這些標準很多,也比較雜亂,有必要作以總結。廢話不多說了,直接進入正題。現...