FP growth高效頻繁項集發現

fp-growth

演算法優缺點：

優點：一般快於apriori

缺點：實現比較困難，在某些資料上效能下降

適用資料型別：標稱型資料

演算法思想：

fp-growth演算法是用來解決頻繁項集發現問題的，這個問題再前面我們可以通過apriori演算法來解決，但是雖然利用apriori原理加快了速度，仍舊是效率比較低的。fp-growth演算法則可以解決這個問題。

fp-growth演算法使用了頻繁模式樹(frequent pattern tree)的資料結構。fp-tree是一種特殊的字首樹，由頻繁項頭表和項字首樹構成。所謂字首樹，是一種儲存候選項集的資料結構，樹的分支用項名標識，樹的節點儲存字尾項，路徑表示項集。

fp-growth演算法生成頻繁項集相對apriori生成頻繁項集的主要好處就是速度快，能快到幾個數量級;另乙個好處就是用fp樹儲存資料可以減少儲存空間，因為關聯挖掘的資料集往往是重複性很高的，這就能帶來很高的壓縮比。

演算法可以分成一下幾個部分：

構建fp樹

首先我們要統計出所有的元素的頻度，刪除不滿足最小支援度的(apriori原理)

然後我們要根據頻度對所有的項集排序(保證我們的樹是最小的)

最後根據排序的項集構建fp樹

從fp樹挖掘頻繁項集：

生成條件模式基

生成條件fp樹

演算法的執行過程這篇文章有個很好的示例程式