關聯規則挖掘綜述筆記

2021-10-09 20:25:09 字數 2108 閱讀 6077

關聯規則種類

1、基於規則中處理的變數的類別

關聯規則可以分為種型別和數值型

關聯規則

內容種型別關聯規則處理的值都是離散的、種類化的

數值型可以和多維關聯或多層關聯規則結合起來,對數值型字段進行處理

2、基於規則中資料的抽象層次

可以分為單層關聯規則和多層關聯規則

關聯規則內容

單層關聯規則所有變數都沒有考慮到現實資料是具有多個不同層次的

多層關聯規則對資料的多層性已經進行了充分的考慮

3、基於規則中涉及到的資料的維數

可以分為單維和多維

關聯規則內容

單維關聯規則涉及的資料只有乙個維

多維關聯規則要處理的資料將會涉及到多維

關聯規則挖掘演算法

併聯規則演算法的設計可以分為分解為兩個子問題

1、找到所有支援度大於最小支援度的項集,這些項集稱為頻集

2、使用上一步找到的頻集產生期望的規則。

基於apriori頻繁演算法的幾種優化方式

雖能apriori演算法自己已經進行了一定的優化,但是在實際應用中還是存在令人不滿意的地方。

1、基於劃分的方法:

為了降低演算法對記憶體的需求同時提高並行性,基於劃分(partition)的演算法,該演算法先把資料庫從邏輯上分成幾個互不相交的塊,每次單獨考慮乙個分塊(分塊的大小選擇要使得每個分塊可以被放入主存)並對它生成所有的頻集,然後把產生的頻集合並,用來生成所有可能的頻集,最後計算這些項集的支援度。

該演算法可以高度並行,可以使每乙個塊分別分配給某個處理器生成頻集。

2、基於hash的方法

通過實驗可以發現尋找頻集主要的計算是在生成頻繁2-項集lk上

3、基於取樣的方法

從資料庫中抽取出來的取樣得到一些在整個資料庫中可能成立的規則,然後對資料庫的剩餘部分驗證這個結果。

4、減少交易個數

減少用於未來掃瞄的事務集的大小。乙個基本原理就是乙個事務不包含長度為k的大項集則必然不包含長度為k+1的大項集,從而就可以將這些事務移去,這樣就可以在下一遍掃瞄中減少要掃瞄的事務集個數,這個也就是aprioyitid的基本思想。

其它頻集挖掘方法

雖能上述進行了apriori演算法的一些優化,但還是會有一些固有的缺陷還是無法克服

問題內容

可能產生大量的候選集當長度為1的頻集有10000個的時候,長度為2的候選集個數將超過1000萬。還有就是如果要生成乙個很長的規則的時候,要產生的中間元素也是巨大量的。

無法對稀有資訊進行分析由於頻集使用了引數minsup(最小支援度),所以就無法對小於minsup的事件進行分析,而如果將minsup設定成很低的值,那麼演算法的效率就成了乙個很難處理的問題。

優化方法

方法內容

fp-growth使用分而治之的策略,在經過了第一次掃瞄之後,把資料庫中的頻集壓縮進一顆頻繁模式樹(fp-tree),同時保留其中的關聯資訊,隨後我們將fp-tree分化成一些條件庫,每個庫和乙個長度為1的頻集相關。然後再對這些條件庫分別進行挖掘。當原始資料量很大的時候,可以結合劃分的方法,使得乙個fp-tree可以存放到主存中。

min_hashing和locality_sensitive_hashing將可信度放在第一位,挖掘一些具有非常高可信度的規則。

關聯規則挖掘綜述

蔡偉傑 張曉輝 朱建秋 朱揚勇

復旦大學電腦科學系 復旦大學電腦科學系 上海200433

關聯規則挖掘

關聯規則反映事物之間的相互依存性和關聯性。如果事物之間存在一定的關聯,那麼我們就可以通過乙個事物去 另乙個事物。我們要挖掘大量資料中人們感興趣的,有價值的資訊,包括概念,規則,規律等。關聯規則 發現資料中的規律 超市中什麼產品會 起購買?組合推薦 顧客在買了 臺pc之後下 步會購買?搭配推薦 哪種d...

關聯規則挖掘

直接用例項來解釋概念更清楚一些,加入資料庫中存在10條交易記錄 transaction 具體如下表所示 交易id tid 購買商品 items b bread c cream m milk t tea t01b c m t t02b c m t03c m t04m t t05b c m t06b t...

關聯規則挖掘

1.基本概念 關聯規則挖掘是指尋找給定資料集中項之間的有趣關聯或相關聯絡。可以幫助許多決策的制定,如分類設計 交叉購物和賤賣分析。典型的例子就是購物籃分析。2.關聯規則的步驟 1 找出所有的頻繁項集 這些項集出現的頻繁性至少和預定義的最小支援數一樣 2 由頻繁項集產生強關聯規則 這些規則必須滿足最小...