FPGrowth演算法理論

背景：

頻繁項集挖掘演算法用於挖掘

經常一起出現的item集合（稱為頻繁項集）

，通過挖掘出這些頻繁項集，

當在乙個事務中出現頻繁項集的其中乙個item，則可以把該頻繁項集的其他item作為推薦

。比如經典的購物籃分析中啤酒、尿布故事，啤酒和尿布經常在使用者的購物籃中一起出現，通過挖掘出啤酒、尿布這個啤酒項集，則當乙個使用者買了啤酒的時候可以為他推薦尿布，這樣使用者購買的可能性會比較大，從而達到組合營銷的目的。

常見的頻繁項集挖掘演算法有兩類，一類是

apriori演算法

，另一類是

fpgrowth

。apriori通過不斷的構造候選集、篩選候選集挖掘出頻繁項集，需要多次掃瞄原始資料，當原始資料較大時，磁碟i/o次數太多，效率比較低下。fpgrowth演算法則只需掃瞄原始資料兩遍，通過fp-tree資料結構對原始資料進行壓縮，效率較高。

fpgrowth演算法主要分為兩個步驟：fp-tree構建、

遞迴挖掘fp-tree

。fp-tree構建通過兩次資料掃瞄，將原始資料中的事務壓縮到乙個fp-tree樹，該fp-tree類似於字首樹，相同字首的路徑可以共用，從而達到壓縮資料的目的。接著通過fp-tree找出每個item的條件模式基、條件fp-tree，遞迴的挖掘條件fp-tree得到所有的頻繁項集。演算法的主要計算瓶頸在fp-tree的遞迴挖掘上，下面詳細介紹fpgrowth演算法的主要步驟。

fpgrowth的演算法步驟：

構造條件fp-tree（conditional fp-tree）

fp-growh：遞迴的挖掘每個條件fp-tree，累加字尾頻繁項集，直到找到fp-tree為空或者fp-tree只有一條路徑（只有一條路徑情況下，所有路徑上item的組合都是頻繁項集）

注意點：

共用字首：不排序會造成不能共用字首

mahout並行化fpgrowth實現

頂 7 踩

FPGrowth演算法理論

演算法理論 PLA

EM演算法理論總結

模型評估的一些方法理論（演算法理論）

FPGrowth演算法理論

演算法理論 PLA

EM演算法理論總結

模型評估的一些方法理論（演算法理論）

相關推薦