aprioir演算法 關聯規則

2021-10-18 05:09:19 字數 1153 閱讀 6097

關聯規則:評定規則的標準

支援度:規則前項lhs和規則後項rhs所包括的商品都同時出現的概率,lhs和rhs商品的交易次數/總交易次數。

置信度:在所有的購買了左邊商品的交易中,同時又購買了右邊商品的交易機率,包含規則兩邊商品的交易次數/包括規則左邊商品的交易次數。

提公升度(有這個規則和沒有這個規則是否概率會提公升,規則是否有價值):無任何約束的情況下買後項的交易次數/置信度。提公升度必須大於1才有意義。

一、aprioir

多遍資料庫掃瞄是昂貴的,挖掘長模式需要很多遍掃瞄,並產生大量候選。aprioir具有的性質:頻繁項集的所有非空子集也必須是頻繁的。

首先找頻繁一項集(滿足最小支援度要求的項集),在頻繁一項集的基礎上尋找頻繁二項集,再依次尋找頻繁

三、四等等,直到沒有滿足最小支援度的項集。

再根據頻繁項集產生關聯規則。頻繁項集的非空子集計算置信度,在一定置信度的情況下保留下來相應有用的規則。

aprioir演算法本來orange2.7演算法可以實現,不知道為什麼orange3給取消了這個演算法

二、fp-growth

fp-growth演算法不同於apriori演算法生成候選項集再檢查是否頻繁的「產生-測試」 方法,而是使用一種稱為頻繁模式樹(fp-tree,pf代表頻繁模式,frequent pattern)選單緊湊資料結構組織資料,並直接從該結構中提取頻繁項集。每個事務被對映到fp-tree的一條路徑上,不同的事務會有相同的路徑,因此重疊的越多,壓縮效果越好。

fp-growth演算法分為兩個過程,一是根據原始資料構造fp-tree,

首先掃瞄一遍資料集,找出頻繁項的列表l,並且按照支援度排序,根據此排序調整原資料中事務的排序。然後開始構造fp-tree,根節點為空,處理每個事物時按照l中的順序將事物**現的頻繁項新增到中的乙個分支。(下圖中d是通過指標連線上的,這樣後期搜尋時候,是直接知道d出現兩次的)

構造完成fp-tree後,選定葉節點,收集所有包含葉節點的字首路徑,通過把與葉節點相關聯的支援度計數相加,得到葉節點的支援度計數,從而產生滿足最小支援度的規則。

原文:

Apriori 關聯規則演算法

關聯規則通過量化的數字描述物品甲的出現對物品乙的出現有多大的影響。它的模式屬於描述型模式,發現關聯規則的演算法屬於無監督學習的方法。其實是一種事物相關性的 通過對比支援度,進行剪枝,將支援度高的分支留下,繼續探尋關聯,直到再沒有高於最小支援度為止。應用場景比較廣泛,購物籃資料,醫療診斷,科學資料分析...

Apriori關聯規則演算法

例子 支援度 支援度是乙個百分比,指某個商品組合出現的次數與總次數之間的比例,支援度越高表示該組合出現的機率越大。在上面圖中我們可以發現 牛奶 出現了 4 次,那麼這 5 筆訂單中 牛奶 的支援度就是 4 5 0.8。同樣 牛奶 麵包 出現了 3 次,那麼這 5 筆訂單中 牛奶 麵包 的支援度就是 ...

關聯規則演算法總結

物品集i裡面是物品,事務集 事務t支援物品集a 這個事務中包含此物品 支援度 物品a的支援度 1000個顧客購物,200個買了麵包,支援度20 200 1000 關聯規則a b的支援度 聯合概率 1000個顧客購物,100個購買了麵包和黃油。則麵包 黃油 10 可信度 關聯規則a b的可信度 條件概...