資料探勘的十大演算法

按照不同的目的將演算法分成四類

分類演算法:c4.5 ，樸素貝葉斯，svm，knn ，adaboost , cart

聚類演算法：k-means , em

關聯分析：apriori

連線分析：pagerank

c4.5 演算法是十大演算法之首，它是決策樹的演算法，它在決策樹夠早過程中就進行了剪枝處理，並且可以處理連續的屬性，也能對不完整的資料進行處理。

樸素貝葉斯模型是基於概率論的原理，原理：對於給出的未知物體想要進行分類，就需要求解這個未知物體出現的條件下各個類別出現的概率，哪個最大，就認為未知物體屬於哪個分類

svm 也叫支援向量機，svm在訓練中建立了乙個超平面的分類模型

knn也叫k 最近鄰演算法。所謂k近鄰，就是每個樣本都可以用它最近接的k個鄰居來代表。如果乙個樣本，它的k個最接近的鄰居都屬於分類a，那麼這個樣本也屬於分類a。

.adaboost 是在訓練中建立了乙個聯合的分類模型。boost是代表提公升的意思，所以.adaboost 是構建分類器的演算法。他可以讓我們多個弱的分類器組合成強的分類器

ceat 代表分類和回歸樹，它是構建兩棵樹，一顆是分類樹，另乙個是回歸樹，它是決策樹學習方法。

apriori 是一種碗蕨關聯規則的演算法，他通過挖掘頻繁項集來揭示物品之間的關聯關係，被廣泛應用到商業挖掘和網路安全等領域中。頻繁項集是指經常出現在一起的物品的集合，關聯規則暗示著兩種物品之間可能存在很強的關係

k-means 演算法是乙個聚類演算法。想把物體劃分為k類，假設每個類別裡面，都有個中心點，即意見領袖，它是整個類別的核心。現在有乙個新點要歸類，這時候就只要計算新點與k個中心點的距離，距離哪個中心點近，就變成哪個類別。

em 演算法也叫最大期望值演算法，是求引數的最大似然估計的一種演算法。原理是：假設我們想要評估引數a和引數b，在開始狀態下二者是未知的，並且知道了a的資訊就可以得到b的資訊，反過來知道了b的資訊也就得到了a。可以考慮首先賦予a某個初值，以此得到b的估值，然後從b的估值出發，重新估計a的取值，這個過程一直持續到收斂為止。

10.pagerank

演算法是資料探勘的靈魂，也是最精華的部分

資料探勘需要數學知識，如果不了解概率論和樹立統計，還是很難掌握演算法的本質，如果不了解線性代數，就很難理解矩陣和向量運作在資料探勘中的價值，如果沒有最優化方法的概念，就對迭代收斂理解不深。

資料探勘的十大演算法

資料探勘十大演算法

資料探勘十大演算法 SVM

資料探勘十大經典演算法

資料探勘的十大演算法

資料探勘十大演算法

資料探勘十大演算法 SVM

資料探勘十大經典演算法

相關推薦