資料探勘十大經典演算法

1、c4.5；2、k-means；3、svm；4、apriori；5、em；

6、pagerank；7、adaboost；8、knn；9、***** bayes；10、cart

1、c4.5 計算增益率

step1：計算資料集d的熵（單位為位元）info(d)

step2：計算每個屬性的熵info(x)(d)

step3：增益率=（info(d)-info(x)(d)）/

2、k-均值演算法：

首先，將資料集隨機生成k個簇，計算每個簇的均值（中心點）；其次，將每乙個樣本分配到離它最近的中心點處；3、計算新的每個簇的中心點，中心點為簇的均值，重複步驟2，3；4、若迭代滿足終止條件，一般終止條件為：（1）新、舊中心的變化小於閥值（2）聚類內方差和總平方誤差小於某個閥值

3、支援向量機

4、apriori 關聯規則

例如購物籃分析。牛奶 ⇒ 麵包 [支援度：3%，置信度：40%]

支援度3%意味3%顧客同時購買牛奶和麵包。置信度40%意味購買牛奶的顧客40%也購買麵包。規則的支援度和置信度是兩個規則興趣度度量，它們分別反映發現規則的有用性和確定性。關聯規則是有趣的，如果它滿足最小支援度閾值和最小置信度閾值。這些閾值可以由使用者或領域專家設定。

我們先來認識幾個相關的定義：

定義1：支援度（support）

支援度s是事務資料庫d中包含a u b的事務百分比，它是概率p（a u b），即support（a b）=p（a u b），它描述了a和b這兩個物品集的並集在所有的事務中出現的概率。

定義2：置信度（confidence）

可信度為事務資料庫d中包含a的事務中同時也包含b的百分比，它是概率p（b|a），即confidence（a b）=p（b|a）。

定義3：頻繁專案集

支援度不小於使用者給定的最小支援度閾值（minsup）的項集稱為頻繁專案集（簡稱頻集），或者大專案集。所有

的頻繁1-項集記為l1。