FP growth高效頻繁項集發現

2021-06-27 13:15:16 字數 693 閱讀 4617

fp-growth

演算法優缺點:

優點:一般快於apriori

缺點:實現比較困難,在某些資料上效能下降

適用資料型別:標稱型資料

演算法思想:

fp-growth演算法是用來解決頻繁項集發現問題的,這個問題再前面我們可以通過apriori演算法來解決,但是雖然利用apriori原理加快了速度,仍舊是效率比較低的。fp-growth演算法則可以解決這個問題。

fp-growth演算法使用了頻繁模式樹(frequent pattern tree)的資料結構。fp-tree是一種特殊的字首樹,由頻繁項頭表和項字首樹構成。所謂字首樹,是一種儲存候選項集的資料結構,樹的分支用項名標識,樹的節點儲存字尾項,路徑表示項集。

fp-growth演算法生成頻繁項集相對apriori生成頻繁項集的主要好處就是速度快,能快到幾個數量級;另乙個好處就是用fp樹儲存資料可以減少儲存空間,因為關聯挖掘的資料集往往是重複性很高的,這就能帶來很高的壓縮比。

演算法可以分成一下幾個部分:

構建fp樹

首先我們要統計出所有的元素的頻度,刪除不滿足最小支援度的(apriori原理)

然後我們要根據頻度對所有的項集排序(保證我們的樹是最小的)

最後根據排序的項集構建fp樹

從fp樹挖掘頻繁項集:

生成條件模式基

生成條件fp樹

演算法的執行過程這篇文章有個很好的示例程式

Spark 頻繁項集挖掘

同步於buracag的部落格 挖掘頻繁專案,專案集,子串行或其他子結構通常是分析大規模資料集的第一步,這是資料探勘多年來一直活躍的研究課題。可以參考一下維基百科中關於關聯規則學習的基礎知識。fp growth演算法在han等人的文章中描述,挖掘頻繁模式而沒有候選生成,其中 fp 代表頻繁模式。給定資...

關聯規則(頻繁項集) Apriori

1.該問題最初是對 購物籃 提出來的,著名例子是 尿布與啤酒 2.相關概念 關聯規則的支援度 support a,b 包含a和b的事務數 事務總數 關聯規則的置信度 confidence a,b 包含a和b的事務數 包含a事務數 頻繁項集 項集的頻率大於等於最小支援度。強相關規則 同時滿足最小支援度...

商品頻繁二項集挖掘方法

一 頻繁二項集 現實中有許多關聯規則挖掘演算法,比如最著名的apriori演算法,以及fp 樹頻集演算法,本例介紹關於商品的頻繁二項集演算法。二 演算法設計思路 1 將每一筆訂單的商品按照兩兩分組 2 對每個分組的頻數進行統計 3 根據頻數計算支援度和置信度 4 設定支援度與置信度閾值,過濾不達標的...