基於關聯規則的推薦綜述

2021-10-24 02:37:05 字數 1259 閱讀 4633

基於關聯規則的推薦思想類似基於物品的協同過濾推薦

「啤酒與尿布」

關聯分析中最有名的例子就是「啤酒與尿布」。

原來,在美國,婦女們經常會囑咐她們的丈夫下班以後給孩子買一點尿布回來,而丈夫在買完尿布後,大都會順手買回一瓶自己愛喝的啤酒(由此看出美國人愛喝酒)。商家通過對一年多的原始交易記錄進行詳細的分析,發現了這對神奇的組合。於是就毫不猶豫地將尿布與啤酒擺放在一起售賣,通過它們的關聯性,互相促進銷售。「啤酒與尿布」的故事一度是營銷界的神話。

那麼問題來了,商家是如何發現啤酒與尿布兩者之間的關聯性呢?

這裡我們可以使用資料探勘中的關聯規則挖掘技術,目的就是為了找出兩個物件(如x,y)之間的關聯性。一旦找出二者關聯性,那麼就可以根據它來進行推薦。

基於關聯規則的推薦

一般我們可以找出使用者購買的所有物品資料裡頻繁出現的項集活序列,來做頻繁集挖掘,找到滿足支援度閾值的關聯物品的頻繁n項集或者序列。如果使用者購買了頻繁n項集或者序列裡的部分物品,那麼我們可以將頻繁項集或序列裡的其他物品按一定的評分準則推薦給使用者,這個評分準則可以包括支援度,置信度和提公升度等。

常用的關聯推薦演算法有apriori,fp-growth

關聯分析

關聯分析是一種在大規模資料集中尋找有趣關係的任務。 這些關係可以有兩種形式:

從大規模資料集中尋找物品間的隱含關係被稱作關聯分析(association analysis)或者關聯規則學習(association rule learning)

關聯性衡量指標

假設我們下圖所示的乙份資料集

確定x, y的關聯性,需要用兩個指標來衡量:

如果不考慮關聯規則的支援度和置信度,那麼在資料庫中會存在著無窮多的關聯規則。因此我們為了提取出真正的頻繁項集和關聯規則,必須指定乙個最小支援度閾值和最小置信度閾值,因為對於支援度和置信度太低的關聯規則基本沒有什麼使用價值。

**同時滿足最小可信度閾值和最小支援度閾值的關聯規則被稱為強關聯規則。**比如啤酒與尿布。

比如這裡,如果我們假設最小支援度閾值為50%,最小可信度閾值為70%,那麼這裡>>>>>>都屬於符合條件的兩條關聯規則,分別表示:

fp-growth演算法實現

apriori演算法實現

關聯規則挖掘綜述筆記

關聯規則種類 1 基於規則中處理的變數的類別 關聯規則可以分為種型別和數值型 關聯規則 內容種型別關聯規則處理的值都是離散的 種類化的 數值型可以和多維關聯或多層關聯規則結合起來,對數值型字段進行處理 2 基於規則中資料的抽象層次 可以分為單層關聯規則和多層關聯規則 關聯規則內容 單層關聯規則所有變...

推薦系統(基於關聯規則和基於協同過濾)

找到和目標使用者興趣相似的使用者集合,三種常用的使用者相似度指標是皮爾遜相關係數 余弦相關係數和傑卡德相關係數 根據使用者相似度和相似個k個使用者的得分,加權計算分數,得到目標使用者對商品的評分 找到這個集合中的使用者所喜歡的,並且目標使用者沒有聽說過的物品推薦給目標使用者。注意 各相似使用者的評分...

推薦系統 關聯規則挖掘

購物籃分析 關聯規則挖掘,頻繁規則挖掘 挖掘資料集 事務資料集,交易資料集 購物籃資料 頻繁模式 頻繁地出現在資料集中的模式,例如項集,子結構,子串行等 挖掘目標 頻繁模式,頻繁項集,關聯規則等 關聯規則 牛奶 雞蛋 支援度 2 置信度 60 支援度 分析中的全部事物的2 同時購買了牛奶和雞蛋 置信...