R語言資料探勘2 1 2 1 關聯規則

2.1.2.1　關聯規則

關聯分析可以從海量資料集中發現有意義的關係，這種關係可以表示成關聯規則的形式或頻繁項集的形式。具體的關聯分析演算法將在後面乙個章節中給出。

關聯規則挖掘旨在發現給定資料集（事務資料集或其他序列-模式-型別資料集）中的結果規則集合。給定預先定義的最小支援度計數s和置信度c，給定已發現的規則x→y support_count (x→y)≥s且confidence (x→y)≥c。

當x∩y=（x、y不相交），則x→y是關聯規則。規則的興趣度通過支援度（support）和置信度（confidence）來測量。支援度表示資料集中規則出現的頻率，而置信度測量在x出現的前提下，y出現的可能性。

對於關聯規則，衡量規則可用性的核心度量是規則的支援度和置信度。兩者之間的關係是：

support_count(x)是資料集中包含x的項集數。

通常，在support_count(x)中，支援度和置信度的值表示為0～100的百分數。

給定最小支援度閾值s和最小置信度閾值c。如果support_count (x→y) > s且confidence (x→y)≥c，則關聯規則x→y稱為強規則。

對於關聯規則含義的解釋應當慎重，尤其是當不能確定地判斷規則是否意味著因果關係時。它只說明規則的前件和後件同時發生。以下是可能遇到不同種類的規則：

布林關聯規則：若規則包含項出現的關聯關係，則稱為布林關聯規則。

單維關聯規則：若規則最多包含乙個維度，則為單維關聯規則。

多維關聯規則：若規則至少涉及兩個維度，則為多維關聯規則。

定量關聯規則：若規則中至少乙個項或屬性是定量的，則稱為定量關聯規則。