資料結構和演算法系列 FP Tree演算法的實現

在關聯規則挖掘領域最經典的演算法法是apriori，其致命的缺點是需要多次掃瞄事務資料庫。於是人們提出了各種裁剪（prune）資料集的方法以減少i/o開支，韓嘉煒老師的fp-tree演算法就是其中非常高效的一種。

嚴格地說apriori和fp-tree都是尋找頻繁項集的演算法，頻繁項集就是所謂的「支援度」比較高的項集，下面解釋一下支援度和置信度的概念。

設事務資料庫為：

a　　e　　f　　g a　　f　　g a　　b　　e　　f　　g e　　f　　g

則的支援度數為3，支援度為3/4。

的支援度數為4，支援度為4/4。

的支援度數為3，支援度為3/4。

=>的置信度為：的支援度數除以的支援度數，即3/4

=>的置信度為：的支援度數除以的支援度數，即3/3

強關聯規則挖掘是在滿足一定支援度的情況下尋找置信度達到閾值的所有模式。

我們舉個例子來詳細講解fp-tree演算法的完整實現。

事務資料庫如下，一行表示一條購物記錄：

牛奶，雞蛋，麵包，薯片雞蛋，爆公尺花，薯片，啤酒雞蛋，麵包，薯片牛奶，雞蛋，麵包，爆公尺花，薯片，啤酒牛奶，麵包，啤酒雞蛋，麵包，啤酒牛奶，麵包，薯片牛奶，雞蛋，麵包，黃油，薯片牛奶，雞蛋，黃油，薯片

我們的目的是要找出哪些商品總是相伴出現的，比如人們買薯片的時候通常也會買雞蛋，則[薯片，雞蛋]就是一條頻繁模式（frequent pattern）。

fp-tree演算法第一步：掃瞄事務資料庫，每項商品按頻數遞減排序，並刪除頻數小於最小支援度minsup的商品。（第一次掃瞄資料庫）

薯片:7雞蛋:7麵包:7牛奶:6啤酒:4 （這裡我們令minsup=3）

以上結果就是頻繁1項集，記為f1。

第二步：對於每一條購買記錄，按照f1中的順序重新排序。（第二次也是最後一次掃瞄資料庫）

薯片,雞蛋,麵包,牛奶薯片,雞蛋,啤酒薯片,雞蛋,麵包薯片,雞蛋,麵包,牛奶,啤酒麵包,牛奶,啤酒雞蛋,麵包,啤酒薯片,麵包,牛奶薯片,雞蛋,麵包,牛奶薯片,雞蛋,牛奶

第三步：把第二步得到的各條記錄插入到fp-tree中。剛開始時字尾模式為空。

插入第一條（薯片,雞蛋,麵包,牛奶）之後

插入第三條記錄（麵包,牛奶,啤酒）

估計你也知道怎麼插了，最終生成的fp-tree是：

上圖中左邊的那一叫做表頭項，樹中相同名稱的節點要鏈結起來，鍊錶的第乙個元素就是表頭項裡的元素。

如果fp-tree為空（只含乙個虛的root節點），則fp-growth函式返回。

此時輸出表頭項的每一項+postmodel，支援度為表頭項中對應項的計數。

第四步：從fp-tree中找出頻繁項。

遍歷表頭項中的每一項（我們拿「牛奶：6」為例），對於各項都執行以下（1）到（5）的操作：

（1）從fp-tree中找到所有的「牛奶」節點，向上遍歷它的祖先節點，得到4條路徑：

薯片：7，雞蛋：6，牛奶：1 薯片：7，雞蛋：6，麵包：4，牛奶：3 薯片：7，麵包：1，牛奶：1 麵包：1，牛奶：1

對於每一條路徑上的節點，其count都設定為牛奶的count

薯片：1，雞蛋：1，牛奶：1 薯片：3，雞蛋：3，麵包：3，牛奶：3 薯片：1，麵包：1，牛奶：1 麵包：1，牛奶：1

因為每一項末尾都是牛奶，可以把牛奶去掉，得到條件模式基（conditional pattern base,cpb），此時的字尾模式是：（牛奶）。

薯片：1，雞蛋：1 薯片：3，雞蛋：3，麵包：3 薯片：1，麵包：1 麵包：1

（2）我們把上面的結果當作原始的事務資料庫，返回到第3步，遞迴迭代執行。

沒講清楚，你可以參考這篇部落格，直接看核心**吧：

public void fpgrowth(list> transrecords,
listpostpattern,context context) throws ioexception, interruptedexception 
}// 找到項頭表的每一項的條件模式基，進入遞迴迭代
for (treenode header : headertable) 
while (counter-- > 0) 
backnode = backnode.getnexthomonym();
}// 遞迴迭代
fpgrowth(newtransrecords, newpostpattern,context);}}

對於fp-tree已經是單枝的情況，就沒有必要再遞迴呼叫fpgrowth了，直接輸出整條路徑上所有節點的各種組合+postmodel就可了。例如當fp-tree為：

我們直接輸出：

3　　a+postmodel

3　　b+postmodel

3　　a+b+postmodel

就可以了。

如何按照上面**裡的做法，是先輸出：

3　　a+postmodel

3　　b+postmodel

然後把b插入到postmodel的頭部，重新建立乙個fp-tree，這時tree中只含a，於是輸出

3　　a+(b+postmodel)

兩種方法結果是一樣的，但畢竟重新建立fp-tree計算量大些。

資料結構和演算法系列 FP Tree演算法的實現

資料結構排序演算法系列總結

資料結構與演算法系列1 什麼是資料結構和演算法

資料結構和演算法系列（3）排序演算法

資料結構和演算法系列 FP Tree演算法的實現

資料結構 排序演算法系列總結

資料結構與演算法系列1 什麼是資料結構和演算法

資料結構和演算法系列（3）排序演算法

相關推薦

資料結構排序演算法系列總結