關聯規則挖掘綜述筆記

關聯規則種類

1、基於規則中處理的變數的類別

關聯規則可以分為種型別和數值型

關聯規則

內容種型別關聯規則處理的值都是離散的、種類化的

數值型可以和多維關聯或多層關聯規則結合起來，對數值型字段進行處理

2、基於規則中資料的抽象層次

可以分為單層關聯規則和多層關聯規則

關聯規則內容

單層關聯規則所有變數都沒有考慮到現實資料是具有多個不同層次的

多層關聯規則對資料的多層性已經進行了充分的考慮

3、基於規則中涉及到的資料的維數

可以分為單維和多維

關聯規則內容

單維關聯規則涉及的資料只有乙個維

多維關聯規則要處理的資料將會涉及到多維

關聯規則挖掘演算法

併聯規則演算法的設計可以分為分解為兩個子問題

1、找到所有支援度大於最小支援度的項集，這些項集稱為頻集。

2、使用上一步找到的頻集產生期望的規則。

基於apriori頻繁演算法的幾種優化方式

雖能apriori演算法自己已經進行了一定的優化，但是在實際應用中還是存在令人不滿意的地方。

1、基於劃分的方法：

為了降低演算法對記憶體的需求同時提高並行性，基於劃分（partition）的演算法，該演算法先把資料庫從邏輯上分成幾個互不相交的塊，每次單獨考慮乙個分塊（分塊的大小選擇要使得每個分塊可以被放入主存）並對它生成所有的頻集，然後把產生的頻集合並，用來生成所有可能的頻集，最後計算這些項集的支援度。

該演算法可以高度並行，可以使每乙個塊分別分配給某個處理器生成頻集。

2、基於hash的方法

通過實驗可以發現尋找頻集主要的計算是在生成頻繁2-項集lk上

3、基於取樣的方法

從資料庫中抽取出來的取樣得到一些在整個資料庫中可能成立的規則，然後對資料庫的剩餘部分驗證這個結果。

4、減少交易個數

減少用於未來掃瞄的事務集的大小。乙個基本原理就是乙個事務不包含長度為k的大項集則必然不包含長度為k+1的大項集，從而就可以將這些事務移去，這樣就可以在下一遍掃瞄中減少要掃瞄的事務集個數，這個也就是aprioyitid的基本思想。

其它頻集挖掘方法

雖能上述進行了apriori演算法的一些優化，但還是會有一些固有的缺陷還是無法克服

問題內容

可能產生大量的候選集當長度為1的頻集有10000個的時候，長度為2的候選集個數將超過1000萬。還有就是如果要生成乙個很長的規則的時候，要產生的中間元素也是巨大量的。

無法對稀有資訊進行分析由於頻集使用了引數minsup（最小支援度），所以就無法對小於minsup的事件進行分析，而如果將minsup設定成很低的值，那麼演算法的效率就成了乙個很難處理的問題。

優化方法

方法內容

fp-growth使用分而治之的策略，在經過了第一次掃瞄之後，把資料庫中的頻集壓縮進一顆頻繁模式樹（fp-tree），同時保留其中的關聯資訊，隨後我們將fp-tree分化成一些條件庫，每個庫和乙個長度為1的頻集相關。然後再對這些條件庫分別進行挖掘。當原始資料量很大的時候，可以結合劃分的方法，使得乙個fp-tree可以存放到主存中。

min_hashing和locality_sensitive_hashing將可信度放在第一位，挖掘一些具有非常高可信度的規則。

關聯規則挖掘綜述

蔡偉傑張曉輝朱建秋朱揚勇

復旦大學電腦科學系復旦大學電腦科學系上海200433

關聯規則挖掘綜述筆記

關聯規則挖掘

關聯規則挖掘

關聯規則挖掘

相關推薦