挖掘頻繁模式關聯和相關性基本概念和方法

頻繁模式挖掘搜尋給定資料集中反覆出現的聯絡。

典型例子：購物籃分析該過程通過發現顧客放入他們購物籃中的商品之中的關聯，分析顧客的購物習慣。

關聯規則（association rule）： a => b[support = ?% ; confidence = ?%]

規則的支援度和置信度是規則興趣度的兩種度量。

規則 a=>b 具有支援度 s = support(a=>b) = p(a u b)

規則 a=>b 具有置信度 c = confidence(a=>b) = p (b | a)

頻繁項集 : 當項集k 的相對支援度 support(a=>b) 滿足預定義的最小支援度閾值，則項集k是頻繁項集。

閉項集:當項集k 不存在超項集 y 使其具有相同的支援度。則項集k在資料集d中是閉頻繁項集。

極大頻繁項集(極大項集) : 項集k頻繁的，且不存在超項集 y 在資料集d中是頻繁的，則k是極大頻繁項集

apriori演算法 : 通過限制候選產生發現頻繁項集。

原理: 逐層搜尋的迭代方法利用k項集去探索 k+1 項集。沒找出乙個頻繁項集 li 需要一次資料庫的完整掃瞄

先驗規則：頻繁項集的所有沒空子集一定是頻繁的。

舉例由l1 找到 l2

步驟(1) 連線步:

通過l1與自身連線產生候選k項集的集合。該集合為ck。設l1、l2 是l1中的項集，記號 li[j]表示 li的第j項。

為了有效地實現apriori演算法假定事務或項集中的項按字典序排序。

步驟(2) 剪枝步:

頻繁模式頻繁模式是頻繁地出現在資料集中的模式如項集子串行或子結構例如頻繁地同時出現在交易資料集中的商品如香皂和洗衣液的集合是頻繁項集。序號交易號香皂 a 洗髮露 b 洗衣液 c 牙膏 d 簡化表示 1081201 香皂洗髮露洗衣夜a,b,c 2081202 香皂洗衣夜牙膏a,c,...

學習是一件很苦的事情，但是有時卻是一件很神奇的事情，神奇到原本很抽象枯燥的知識點你卻可以取其精華的理解，這時效率最高此時務必將心得寫下以下讀書筆記來自我在閱讀資料探勘概念與技術的一點感受所謂挖掘頻繁模式，關聯和相關，即指在出現的資料集中找到乙個經常出現的序列模式或者是乙個經常出現的資料結...

項集的出現頻率包含項集的事務數。也稱作頻率支援度計數計數。記作support count。某項集i的支援度包含i的事務數總事務數置信度用於產生強關聯規則，參見第2節。對於i的某個子集i support count i support count i 即為置信度的定義。只要得到a，b和a...

挖掘頻繁模式 關聯和相關性 基本概念和方法