資料探勘學習筆記 二元屬性的鄰近性度量

2021-10-04 18:29:51 字數 845 閱讀 6274

二元屬性:0和1.顯而易見,0表示不出現,1表示出現

分為:對稱性和非對稱性

對稱性二元屬性:兩個個狀態同等重要

非對稱性:兩個狀態不是同等重要的(更重要的/機率較小的賦值1),兩個都取1(正匹配)比兩個都取0(負匹配)的情況更有意義

鄰近性度量:為相異性和相似性度量

:如何刻畫對稱二元屬性之間的相異性

這是物件 i 與物件 j 之間二元屬性的列聯表

q:表示物件 i 與物件 j 都取1的屬性數,其餘類似

p:表示刻畫物件的屬性總數

那麼相異性:

:那麼非對稱二元屬性的相異性呢?

:正匹配比度匹配有意義的多,因此負匹配數t忽略不計

那麼非對稱二元屬性之間的相似性度量為:

一般來講,我們更關注值為 1 的特徵,當資料向量非常稀疏時,值為 1 的特徵個數少,值為 0 的特徵個數非常多,此時 smc 對每個使用者間計算的值都是非常相近的,容易判定都相似,所以引入jaccard 係數,它忽略了取值都是 0 的特徵。

當對稱和非對稱的二元屬性出現在同乙個資料集中,可以使用混合屬性方法

資料探勘學習筆記 數值屬性的鄰近性度量

目錄 資料標準化 數值屬性的相異性側度 閔可夫斯基距離特殊形式 計算例子 數值屬性相異性計算之前,一般先進行資料標準化處理。數值屬性的資料為連續型資料,且對於不同的數值屬性,其數值的範圍可能相差較大,有的區間長度很小,有的區間長度卻很大,這時應對數值屬性做規範化處理 按比例放縮 使得所有的數值屬性都...

資料探勘學習筆記(二)

1 認識資料 1.1 資料物件和屬性型別 資料集由資料物件組成。乙個資料物件代表乙個實體。通常,資料物件用屬性描述。資料物件又稱樣本 例項 資料點或物件。1.1.1 什麼是屬性 屬性 attribute 是乙個資料字段,表示資料物件的乙個特徵。用來描述乙個給定物件的一組屬性稱做屬性向量 或特徵向量 ...

《資料探勘導論》學習筆記(二)

資料探勘導論 第四章 分類 基本概念 決策樹與模型評估 分類的定義 分類任務就是通過學習得到乙個目標函式f,把每個屬性集x對映到乙個預先定義的類標號y。目標函式也稱為分類模型,有兩個主要目的 1 描述性建模 2 性建模 分類適用於 兩元或標稱型別的資料集,即離散的資料集。決策樹分類法 選擇最佳劃分的...