機器學習之Apriori

1 幾個概念：

（1）關聯分析:一種在大規模資料中尋找有趣關係的任務。這種有趣關係一般有兩種形式：頻繁項集或者關聯規則。

（2）頻繁項集：經常,頻繁出現在一起的物品集合，通常用一對{}來表示。

（3）關聯規則：兩種物品之間存在的關聯關係，通常用「

（4）支援度：這是用來衡量頻繁項集的因子。乙個項集的支援度即為乙個資料集中包含該項集的記錄所佔的比例。

（5）可信度（置信度）：這是用來衡量關聯規則的因子。

比如：乙個商店的交易清單，這裡只有豆奶，萵苣，尿布和葡萄酒這四種商品：

上表中，等就是乙個頻繁項集，「尿布

2 apriori原理

以下是4種商品所有可能的項集組合：

apriori的目的就是找到頻繁項集，因為只有先找到頻繁項集才能進一步從中挖掘關聯規則，最終才能得到大規模資料中有趣的關係。

尋找頻繁項集就是去掉一些支援度小的項集。

比如上圖中，如果這個項集我們算出它的支援度很小，屬於非頻繁項集，那麼顯然，所有包括項集的項集也是非頻繁的，那麼也就不用再計算他們的支援度，減少計算量。所以，上圖中的，，這三種項集可以去掉。

3 實現

1）生成所有的頻繁項集

偽**：

實現：

def
scand
(dataset, ck, minsupport):
d=map(set,dataset)
sscnt = {}
#記錄整個資料集中每個元素出現的次數
#for tid in d: #遍歷每條資料列表
for can in ck: #遍歷每個資料元素
if can.issubset(tid):
ifnot sscnt.has_key(can): sscnt[can]=1
else: sscnt[can] += 1
numitems = float(len(d)) #4
retlist = 
supportdata = {}
for key in sscnt: #為每乙個sscnt字典裡的元素計算支援度support
support = sscnt[key]/numitems
if support >= minsupport: #將小於支援度閾值的項集去掉，剩下的當做頻繁項集
retlist.insert(0,key)
supportdata[key] = support
#retlist=[frozenset([1]), frozenset([3]), frozenset([2]), frozenset([5])]
#supportdata=
# return retlist, supportdata

2）組織完整的apriori演算法

根據支援度，找到頻繁項集

偽**：

實現：

def
apriori
(dataset, minsupport = 0.5):
c1 = createc1(dataset) #資料集中所有大小為1的項集集合
d = map(set, dataset)
#l1為所有大小為1的頻繁項集集合
#supportdata為所有大小為1的項集支援度
l1, supportdata = scand(d, c1, minsupport)
l = [l1]
k = 2
while (len(l[k-2]) > 0):
ck = apriorigen(l[k-2], k) #由上一層頻繁項集，建立下一層所有可能項集組合的集合ck
lk, supk = scand(d, ck, minsupport)#選擇符合支援度的頻繁項集lk
supportdata.update(supk)
k += 1
return l, supportdata

3）根據可信度，挖掘關聯規

機器學習演算法之Apriori

apriori演算法不同於以前接觸過的機器學習演算法，這種演算法用於在資料集中尋找有趣的關係。這些關係可以有兩種形式頻繁項集或者關聯規則。關於演算法的詳細介紹參見 def apriori dataset,minsupport 0.5 c1 createc1 dataset d map set,da...

機器學習之Apriori演算法python實現

coding utf 8 created on sun dec 23 15 50 25 2018 author muli from future import print function import pandas as pd 自定義連線函式，用於實現l 到c k的連線 def connect s...

機器學習演算法 Apriori

參考很多人都喜歡用啤酒跟尿布這個例子來比喻機器學習，主要就是想說明apriori在挖掘物件關聯的重要作用，這個演算法很簡單，沒有涉及複雜的數學知識，一點邏輯而已，還有改進的apriori演算法，有時間我也會實現一下簡單實現了一下apriori，直接上python 和結果 coding utf...

機器學習之Apriori

機器學習演算法 之Apriori

機器學習之Apriori演算法python實現

機器學習 演算法 Apriori

相關推薦

機器學習演算法之Apriori

機器學習演算法 Apriori