關聯分析(一)基本概念和內容簡介

2021-10-02 08:35:06 字數 647 閱讀 8374

1.非對稱的二元變數:通常認為項在事務**現比不出現重要

2.支援度計數:包含某個項集的事務的個數

3.支援度和置信度:

支援度:

1.支援度和置信度的作用與區別:

支援度往往反映了關聯規則在總事務**現的頻繁程度,因此支援度過低的規則往往作用不大,因為只是偶然出現。

置信度反映的是對於關聯規則x->y,若置信度越高,則y在包含x的事務**現的概率越大。

2.關聯規則的發現:

找出支援度大於minsup和置信度大於minconf的規則。

所以,關聯規則的發現一般分為兩個任務:

這兩個任務都會產生很大的開銷,其中任務1)的開銷會遠大於任務2),對於這兩個任務我們都會採取相應的方法減少開銷。

**關聯分析的大綱就是關於如何執行這兩個任務,並盡可能減少兩個任務開銷而展開的:

其中,任務1)(選出頻繁項集)的過程:

apriori演算法:

選出候選項集(涉及產生候選項集,剪枝來減少計算開銷)

從候選項集中選出頻繁項集(涉及支援度計數的方法來減少開銷)

fp增長演算法:

fp樹的產生

從fp樹中選出頻繁項集

任務2)(規則產生)的過程:

apriori演算法規則的產生

六 關聯分析 基本概念和演算法1

啤酒尿布問題 二元表示 項集 事務和支援度計數 包含0個或多個項的集合被稱為項集,k 項集 真實存在的項集稱為事務 包含特定項集的事務個數稱為項集的支援度計數。關聯規則 蘊含表示式x y 關聯規則的強度 支援度和置信度,支援度可以用於給定資料集的頻繁程度,置信度確定y包含x的事務中出現的頻繁程度。關...

HDFS原理分析(一) 基本概念

hdfs是hadoop distribute file system 的簡稱,也就是hadoop的乙個分布式檔案系統。一 hdfs的主要設計理念 1 儲存超大檔案 這裡的 超大檔案 是指幾百mb gb甚至tb級別的檔案。2 最高效的訪問模式是 一次寫入 多次讀取 流式資料訪問 hdfs儲存的資料集作...

檔案(一) 基本概念和操作

屬性 描述乙個客體某一方面特徵的資料資訊 字段 資料項 記錄 反映乙個客體資料資訊的集合 屬性的集合 檔案 具有相同屬性定義的記錄的集合 關鍵字 區分不同記錄的屬性或屬性組 有主次關鍵字之分 記錄呈現在使用者眼前的排列的先後次序關係 使用者看到的,一種線性結構 檔案在儲存介質上的組織方式,有如下幾種...