資料探勘演算法 Apriori演算法

apriori演算法

所以做如下補充：

關聯規則：形如x→y的蘊涵式，其中， x和y分別稱為關聯規則的先導(antecedent或left-hand-side, lhs)和後繼(consequent或right-hand-side, rhs) 。其中，關聯規則xy，存在支援度和信任度。

置信度：在所有的購買了左邊商品的交易中，同時又購買了右邊商品的交易機率，包含規則兩邊商品的交易次數/包括規則左邊商品的交易次數。

提公升度：（有這個規則和沒有這個規則是否概率會提公升，規則是否有價值）：無任何約束的情況下買後項的交易次數/置信度。注意：提公升度必須大於1才有意義。

進入正題啦~

在apriori演算法z中，我們通常使用支援度來作為我們判斷頻繁項集的標準。

apriori演算法的目標是找到最大的k項頻繁集。

補充：apriori定律1：如果乙個集合是頻繁項集，則它的所有子集都是頻繁項集。

舉個栗子：假設乙個集合是頻繁項集，即a、b同時出現在一條記錄的次數大於等於最小支援度min_support，則它的子集,出現次數必定大於等於min_support，即它的子集都是頻繁項集。

apriori定律2：如果乙個集合不是頻繁項集，則它的所有超集都不是頻繁項集。

舉個栗子：假設集合不是頻繁項集，即a出現的次數小於 min_support，則它的任何超集如出現的次數必定小於min_support，因此其超集必定也不是頻繁項集。

輸入：資料集合d，支援度閾值α

輸出：最大的頻繁k項集

1）掃瞄整個資料集，得到所有出現過的資料，作為候選頻繁1項集。k=1，頻繁0項集為空集。

2）挖掘頻繁k項集

a) 掃瞄資料計算候選頻繁k項集的支援度

b) 去除候選頻繁k項集中支援度低於閾值的資料集,得到頻繁k項集。如果得到的頻繁k項集為空，則直接返回頻繁k-1項集的集合作為演算法結果，演算法結束。如果得到的頻繁k項集只有一項，則直接返回頻繁k項集的集合作為演算法結果，演算法結束。

c) 基於頻繁k項集，連線生成候選頻繁k+1項集。

3）令k=k+1，轉入步驟2。

敲腦殼重點來啦~

下面這個**是代表乙個事務資料庫d，

其中最小支援度為50%，最小置信度為70%，求事務資料庫中的頻繁關聯規則。

apriori演算法的步驟如下所示:

(1)生成候選頻繁1-專案集c1=，，，，}。

(2)掃瞄事務資料庫d，計算c1中每個專案集在d中的支援度。從事務資料庫d中可以得出每個專案集的支援數分別為3,3,3,1,2，事務資料庫d的專案集總數為4，因此可得出c1中每個專案集的支援度分別為75%，75%，75%，25%，50%。根據最小支援度為50%，可以得出頻繁1-專案集l1=，，，}。

(3)根據l1生成候選頻繁2-專案集c2=，，，，，}。

(4)掃瞄事務資料庫d，計算c2中每個專案集在d中的支援度。從事務資料庫d中可以得出每個專案集的支援數分別為3,2,1,2,1,2，事務資料庫d的專案集總數為4，因此可得出c2中每個專案集的支援度分別為75%，50%，25%，50%，25%，50%。根據最小支援度為50%，可以得出頻繁2-專案集l2=，，，}。

(5)根據l2生成候選頻繁3-專案集c3=，，，}，由於c3中專案集中的乙個子集是l2中不存在的，因此可以去除。同理專案集、也可去除。因此c3=。

補充：到這邊這邊已經是頻繁最大項了所以在這裡面就可以計算他們的置信度

(6)掃瞄事務資料庫d，計算c3中每個專案集在d中的支援度。從事務資料庫d中可以得出每個專案集的支援數分別為2，事務資料庫d的專案集總數為4，因此可得出c2中每個專案集的支援度分別為50%。根據最小支援度為50%，可以得出頻繁3-專案集l3=}。

(7)l=l1ul2ul3=，，，，，，，，}。

(8)我們只考慮專案集長度大於1的專案集，例如，它的所有非真子集，，，，，，分別計算關聯規則—>，—>，—>，—>，—>，—>的置信度，其值分別為67%，67%，67%，67%，100%，100%。由於最小置信度為70%，可得}，—>，—>為頻繁關聯規則。也就是說買麵包和啤酒的同時肯定會買牛奶，買牛奶和啤酒的同時也是會買麵包。

由這個例子可以看出apriori主要是根據最小支援度來判斷的逐步遞進

but~這其中也有一些缺點：　從演算法的步驟可以看出，aprior演算法每輪迭代都要掃瞄資料集，因此在資料集很大，資料種類很多的時候，演算法效率很低。

以及圖示栗子

參考：關於apriori演算法的乙個簡單的例子 - 寧靜之家 -

呃呃呃背了兩節課單詞突然課堂交作業。。。不到10分鐘學完apriori演算法別說了我和我朋友真牛逼需要補充的就是

計算置信度的話。。。。比如啤酒牛奶->麵包分子是麵包出現的次數 /（啤酒牛奶同時出現）的次數這邊沒有搞清楚。。

補充以及基於雜湊的方法優化

第一圖是通過hash函式(10x+y) % 7 得到的~~~ 所以對於每乙個tid 知道裡面的項，可以兩兩配對之後算

我剛開始不是很明白後來模擬了一下比如tid = 1裡面有i1，i2，i5 那麼可以設x = 1，y = 2 或者x = 1 ，y = 5 或者 x = 2，y = 5 通過雜湊函式計算得到之後就扔進桶裡面 over

我是這麼理解的啦

資料探勘演算法 Apriori演算法

資料探勘 Apriori演算法

資料探勘演算法 Apriori演算法實戰

資料探勘演算法之 apriori

資料探勘演算法 Apriori演算法

資料探勘 Apriori演算法

資料探勘演算法 Apriori演算法實戰

資料探勘演算法之 apriori

相關推薦