機器學習 淺嚐關聯規則

2021-08-14 14:42:29 字數 1303 閱讀 2208

理解關聯規則

首先要感謝一下沃爾瑪 第乙個發現並挖掘出來了關聯規則

沃爾瑪對市場購物籃分析的結果是一組指定商品之間關係模式的關聯規則

乙個典型的規則可以表述為:--->;--->。

第乙個關聯規則用通俗易懂的語言來表達就是:如果購買了花生醬和果醬,那麼也很有可能會購買麵包

第二個關聯規則也可以簡單的來表達:就是你把啤酒放在尿不濕旁邊銷量比較高

這個地方要注意的是 : 上述兩個表示式是有關聯方向的

接下來我們要知道的是 怎麼挖掘關聯規則呢

首先我們要理解下面兩個詞:

支援度置信度

這裡我們直接給出具體定義

乙個項集或者規則度量法的支援度是指其在資料中出現的頻率

置信度是指該規則的**能力或者準確度的度量

上面的兩個公式 第乙個公式就是求乙個商品的支援度

其中x代表訂單中的某個商品,n代表所有訂單個數,count(x)代表有幾個訂單中出現了商品x

結合上圖的訂單列表我們舉乙個簡單的例子

假設x=鮮花 那麼鮮花的支援度=4/5;

第二公式就是置信度公式

其中x-->y 代表x對y的置信度,support(x,y)代表同時購買x,y的支援度,support(x)代表購買x的支援度

(這個地方我們要注意的是 如果支援度小於我們設定的閾值,就表明該商品不適合做關聯規則,應當剔除)

下面再來了解一下輔助我們挖掘關聯規則:apriori演算法

理解apriori演算法

apriori原則指的是乙個頻繁項集的所有子集也必須是頻繁的,如果是頻繁的,那麼和都必須是頻繁的

根據定義,支援度表示乙個項集出現在資料中的頻率,因此,如果知道不滿足所期望的支援度閾值,那麼就沒有

必要考慮或者任何包含的項集,這些項集絕對不可能是頻繁的

apriori演算法利用這個邏輯在實際評估他們之前潛在的關聯規則

apriori演算法的執行流程

1、識別所有滿足最小支援度閾值的項集

2、根據滿足最小支援度閾值的這些項集來創造規則

舉個例子:迭代1:需要評估一組1項的項集

迭代2:評估2項的項集

.......  :.........

......

以此類推,在迭代中沒有產生新的項集,演算法將停止。

之後,演算法會根據產生的頻繁項集、所有可能的子集產生關聯規則

例如:將產生候選規則-->和-->。這些規則將根據最小置信度閾值評估,

任何不滿足所期望的置信度的規則被排除

機器學習實戰 關聯規則

資料探勘就是對資料進行處理,並以某種方式分析源資料,從中發現一些潛在的 有用的資訊,所以資料探勘又稱作知識發現。這裡的 某種方式 就是機器學習演算法。關聯規則作為經典機器學習演算法之一,搞懂關聯規則自然有著很重要的意義。顧名思義,關聯規則就是發現資料背後存在的某種規則或者聯絡。import nump...

機器學習 關聯規則與FP Tree

fp tree演算法只需要遍歷一次事務,然後可以建立fp tree樹形資料結構來表徵事務專案出現的關係。fp tree相比原始事務,將各個事務壓縮到乙個樹,儲存了專案之間的關係和出現頻數,但是規模小得多。我可以直接根據fp tree來獲取所有事務專案集合出現的次數。下面是初始化步驟 1 事務專案排序...

機器學習 Apriori演算法(關聯規則)

上來乙個公式 支援度 p a b 既有a又有b的概率 置信度 p b a 在a發生的事件中同時發生b的概率 p ab p a 例如購物籃分析 牛奶 麵包 例子 支援度 3 置信度 40 支援度3 意味著3 顧客同時購買牛奶和麵包 置信度40 意味著購買牛奶的顧客40 也購買麵包 如果事件a中包含k個...