Weka學習之關聯規則分析

步驟：

（一）選擇資料來源

（二）選擇要分析的字段

（三）選擇需要的關聯規則演算法

（四）點選start執行

（五）分析結果

演算法選擇：

apriori演算法引數含義

1.car：如果設為真，則會挖掘類關聯規則而不是全域性關聯規則。

2.classindex：類屬性索引。如果設定為-1，最後的屬性被當做類屬性。

3.delta：以此數值為迭代遞減單位。不斷減小支援度直至達到最小支援度或產生了滿足數量要求的規則。

4.lowerboundminsupport：最小支援度下界。

5.metrictype：度量型別，設定對規則進行排序的度量依據。可以是：置信度（類關聯規則只能用置信度挖掘），提公升度(lift)，槓桿率(leverage)，確信度(conviction)。

在 weka中設定了幾個類似置信度(confidence)的度量來衡量規則的關聯程度，它們分別是：

a)lift ： p(a,b)/(p(a)p(b)) lift=1時表示a和b獨立。這個數越大(>1)，越表明a和b存在於乙個購物籃中不是偶然現象,有較強的關聯度.

b)leverage :p(a,b)-p(a)p(b)

leverage=0時a和b獨立，leverage越大a和b的關係越密切

c) conviction:p(a)p(!b)/p(a,!b) （!b表示b沒有發生） conviction也是用來衡量a和b的獨立性。從它和lift的關係（對b取反，代入lift公式後求倒數）可以看出，這個值越大, a、b越關聯。

6.minmtric ：度量的最小值。

7.numrules：要發現的規則數。

8.outputitemsets：如果設定為真，會在結果中輸出項集。

9.removeallmissingcols：移除全部為預設值的列。

10.significancelevel ：重要程度。重要性測試（僅用於置信度）。

11.upperboundminsupport：最小支援度上界。從這個值開始迭代減小最小支援度。

12.verbose：如果設定為真，則演算法會以冗餘模式執行。

fpgrowph決策樹演算法

fp的全稱是frequent pattern，在演算法中使用了一種稱為頻繁模式樹（frequent pattern tree）的資料結構。fp-tree是一種特殊的字首樹，由頻繁項頭表和項字首樹構成。fp-growth演算法基於以上的結構加快整個挖掘過程。