R語言關聯分析

2021-08-02 12:53:05 字數 3005 閱讀 5646

說明

在進行關聯規則挖掘前,我們需要首先將資料轉換成事務資料。討論三種常用資料集,包括鍊錶,矩陣,資料框架。然後將它們轉化成事務資料。

操作匯入arulesm建立乙個包括三個向量的鍊錶,以存放購買記錄

c("bread","cake","milk"))

names

(tr_list) = paste

("tr",c(1:3),sep = "")

呼叫as函式,將鍊錶轉化成事務型別:

trans = as(tr_list,"transactions")

trans

transactions in sparse format

with

3 transactions (rows) and

4items (columns)

將矩陣格式的資料轉換成事務型別:

tr_matrix = matrix(

c(1,1,1,0,

1,1,0,1,

0,1,1,1),ncol = 4)

dimnames(tr_matrix) = list(

paste("tr",c(1:3),sep = ""),

)trans2 = as(tr_matrix,"transactions")

trans2

transactions in sparse format

with

3 transactions (rows) and

4items (columns)

最後將資料框型別的資料集轉換成事務:

tr_df = data.frame(

trid = as.factor(c(1,2,1,1,2,3,2,3,2,3)),

)trans3 = as(split(tr_df[,"item"],tr_df[,"trid"]),"transactions")

trans3

transactions in sparse format

with

3 transactions (rows) and

4items (columns)

原理

討論了乙個資料集從鍊錶,矩陣,資料框轉換成事務。

展示事務及關聯

r的arule包使用自帶的transactions型別來儲存事務型資料,因此,我們必須呼叫arule包提供的各種函式來展示事務及其關聯關係規則。

獲取事務資料的list表示:

list(trans)

$tr1

"bread"

"cake"

$tr2

"bread"

"milk"

$tr3

[1] "bread"

"cake"

"milk"

呼叫summary函式輸出這些事務的統計及詳細資訊:

summary(trans)

transactions as itemmatrix in sparse format

with

3 rows (elements/itemsets/transactions) and

4 columns (items) and

a density of

0.75

most frequent items:

32220

element (itemset/transaction) length distribution:

sizes33

min. 1st qu. median mean 3rd qu. max.

33333

3 includes extended item information - examples:

labels

2 bread

3 cake

includes extended transaction information - examples:

transactionid

1 tr1

2 tr2

3 tr3

呼叫inspect函式展示事務:

inspect(trans)

items transactionid

[3] tr3

根據事務大小進行篩選:

filter_trains = trans[size(trans) >= 3]

inspect(filter_trains)

items transactionid

[3] tr3

呼叫image函式視覺化檢查事務資料:

對事務視覺化

呼叫itemfrequentplot函式繪製頻繁度/支援度條形圖

事物的項頻繁度條形圖

交易資料是挖掘關聯和頻繁模式的基礎。arules包提供了多種檢查交易資料的方法,我們首先使用list函式以及鍊錶形式來展示交易資料,然後呼叫summary函式來獲取包括基本屬性描述,最頻繁項集以及事務長度分布的資訊。

接下來用inspect函式來顯示這些交易資料,讀者還可以通過交易資料大小來對 資料進行篩選,並使用inspect函式顯示資料之間的關聯,還可以呼叫image函式對檢查的資料進行視覺化處理。最後通過條形圖顯示各項集之間的相關項整合度。

R語言與關聯規則挖掘 購物籃分析

名詞 挖掘資料集 購物籃資料 挖掘目標 關聯規則 關聯規則 啤酒 尿布 支援度0.02,置信度0.6 支援度 所有資料中有2 的購物記錄包含了啤酒和尿布 置信度 所有包含啤酒的購物記錄裡有60 包含尿布 最小支援度閾值和最小置信度閾值。項集 項 商品 組成的集合 k 項集 k個項組成的集合 頻繁項集...

R語言 資料探勘 R語言如何做關聯規則?

一 前言 提到資料探勘,我們第一反應就是之前聽到的啤酒和尿不濕的故事,該故事就是典型的資料探勘中的關聯規則。購物籃分析區別於傳統的線性回歸的主要區別為,關聯分析針對離散資料 下面我們利用r語言的arules包及apriori演算法對商品交易資料進行關聯規則挖掘,二 常見關聯規則 關聯規則 牛奶 雞蛋...

r語言聚類分析 R語言實現tSNE聚類分析

t sne t distributed stochastic neighborembedding 是用於降維的一種無監督機器學習演算法,由 laurens van der maaten 和 geoffrey hinton在08年提出。t sne 作為一種非線性降維演算法,非常適用於高維資料降維到2維...