資料探勘 關聯規則分析(二)Apriori演算法

2021-10-06 09:48:44 字數 893 閱讀 5716

1、apriori演算法最早是agrawal和srikant在2023年提出的,後經不斷完善,已成為資料探勘中簡單關聯分析的核心演算法。

2、為克服簡單搜尋可能產生大量無效規則,計算效率低下,且在大樣本下甚至可能無法實現的問題,apriori演算法包括如下兩大部分: 第一,搜尋頻繁項集。 第二,依據頻繁項集產生關聯規則。

1、頻繁項集:支援度不低於使用者設定最小支援度閾值的項集。

2、頻繁項集的性質:

性質1:頻繁項集的子集必為頻繁項集。

性質2:非頻繁項集的超集一定是非頻繁的。

3、尋找頻繁項集

1、從頻繁項集中產生所有關聯規則,選擇置信度大於使用者指定最小值置信度閾值的關聯規則,組成有效規則集合。

2、候選規則:if is a frequent itemset, 候選規則如下: ab → c, ac → b, bc → a a → bc, b → ac, c → ab

3、如果 |y| = k(即y中有k項), 那麼會有 2k– 2 個候選關聯規則 ( 減去的兩個為:y → 空集 and 空集 → y)

例:l3=,則可以產生 2^3 - 2 = 6 個候選關聯規則(見下圖)

4、例:(用上面尋找頻繁項集的結果l3=)設最小置信度為80%

第1行,23→5,含有23的有2個,含有235的有2個,則置信度為2/2 = 100%

第2行,2→35,含有2的有3個,含有35的有2個,則置信度為2/3 = 67%

以此類推。。。

最後滿足條件的只有23→5,35→2

資料探勘之關聯規則分析

關聯規則分析也稱為購物籃分析,最早是為了發現超市銷售資料庫中不同的商品之間的關聯關係。用於尋找資料集中各項之間的關聯關係。根據所挖掘的關聯關係,可以從乙個屬性的資訊來推斷另乙個屬性的資訊。當置信度達到某一閾值時,可以認為規則成立。常用的關聯規則演算法 演算法名稱 演算法描述 apriori 關聯規則...

資料探勘 關聯規則挖掘

關聯規則 association rule 是資料中所蘊含的一類重要規律。關聯規則挖掘的目標是在資料專案中找出所有的併發關係 cooccurrence relationships 這種關係也稱為關聯 association 關聯規則挖掘的經典應用是購物籃 market basket 關聯規則挖掘並沒...

關聯規則挖掘

關聯規則反映事物之間的相互依存性和關聯性。如果事物之間存在一定的關聯,那麼我們就可以通過乙個事物去 另乙個事物。我們要挖掘大量資料中人們感興趣的,有價值的資訊,包括概念,規則,規律等。關聯規則 發現資料中的規律 超市中什麼產品會 起購買?組合推薦 顧客在買了 臺pc之後下 步會購買?搭配推薦 哪種d...