學習資料探勘的最佳路徑

2021-09-05 01:23:24 字數 1886 閱讀 6834

一、資料探勘的基本流程

1、商業理解:資料探勘的目的是更好地幫助業務,要從商業的角度理解專案需求。

2、資料理解:嘗試收集部分資料,然後對資料進行探索,包括資料描述、資料質量驗證等,有助於對資料有個初步認識。

3、資料準備:開始收集資料,並對資料進行清洗、整合等操作,完成資料探勘前的準備工作。

4、模型建立:選擇和應用資料探勘模型,並進行優化,以便得到更好的分類結果。

5、模型評估:對模型進行評估,並檢查構建模型的每一步,確認模型是否實現了預定的商業目標。

6、上線發布:呈現資料探勘結果,以及後續的監控和維護。

二、資料探勘十大演算法分類

1、分類演算法:c4.5,樸素貝葉斯(***** bayes),svm,knn,adaboost,cart

2、聚類演算法:k-means,em

3、關聯分析:apriori

4、連線分析:pagerank

三、資料探勘十大演算法簡介

1、c4.5

十大演算法之首,是決策樹的演算法,並創造性地在決策樹構造過程中進行了剪枝,可以處理連續的屬性,也能對不完整的資料進行處理,是決策樹分類中具有里程碑意義的演算法。

2、樸素貝葉斯(***** bayes)

樸素貝葉斯模型時基於概率論的原理,基本思想是:對於給出的未知物體想要進行分類,就需要求解在這個未知物體出現的條件下各個類別出現的概率,哪個最大,就認為這個未知物體屬於哪個分類。

3、svm

svm(支援向量機,support vector machine)在訓練中建立了乙個超平面分類模型。

4、knn

knn(k最近鄰演算法,k-nearest neighbor),就是每個樣本都可以用它最接近的k個鄰居來代表。如果乙個樣本,它的k個最接近的鄰居都屬於分類a,那麼這個樣本也屬於分類a。

5、adaboost

boost表示提公升,所以adaboost是個構建分類器的提公升演算法,可以讓多個弱的分類器組成乙個強的分類器,在訓練中建立了聯合的分類模型,是乙個常用的分類演算法。

6、cart

cart(分類和回歸樹,classification and regression trees)構建了兩棵樹,一棵是分類樹,另乙個是回歸樹。和c4.5一樣,它是乙個決策樹學習方法。

7、apriori

apriori是一種挖掘關聯規則(association rules)的演算法。它通過挖掘頻繁項集(frequent item sets)來揭示物品之間的關聯關係,被廣泛應用到商業挖掘和網路安全等領域中。頻繁項集是指經常出現在一起的物品的集合,關聯規則則暗示著兩種物品之間可能存在很強的關係。

8、k-means

k-means演算法是乙個聚類演算法。可以這樣理解:最終想把物體劃分成k類,假設每個類別裡面都有個「中心點」,即意見領袖,是這個類別的核心。現在有乙個新點要歸類,這時只要計算這個新點與k個中心點的距離,距離哪個中心點近,就變成了哪個類別。

9、em

em演算法也叫最大期望演算法,是求引數的最大似然估計的一種方法。原理如下:假設要評估引數a和引數b,在開始狀態下二者都是未知的,並且知道了a的資訊就可以得到b的資訊,反過來知道了b也就得到了a。可以考慮首先賦予a某個初值,以此得到b的估值,然後從b的估值出發,重新估計a的取值,這個過程一直持續到收斂為止。

em演算法常用於聚類和機器學習領域。

10、pagerank

pagerank起源於**影響力的計算方式,後來被google應用到網頁權重的計算中,也就是被引用的次數越多,影響力或權重越高。

四、資料探勘的數學原理

1、概率論與數理統計

2、線性代數

3、圖論

4、最優化方法

(本文學習內容來自「極客時間」課程《資料分析實戰45講》)

資料探勘的最佳學習清單

我列了乙個資料探勘的知識清單,分別是資料探勘的基本流程 十大演算法和數學原理,以此來開啟我們的學習之旅。以下是我對這篇文章的總結圖,要是沒時間的話,可以先看這張 資料探勘的知識清單 資料探勘的過程可以分成以下 6 個步驟 1.商業理解 資料探勘不是我們的目的,我們的目的是更好地幫助業務,所以第一步我...

資料探勘學習(一)

資料探勘 從大量資料中抽取出 隱含的 有潛在用途的 未知的 人們可以理解的 有價值的資訊和模式的過程。2.建立目標資料集 資料選擇 3.資料清理和預處理 4.資料簡化和變形 5.選擇資料探勘功能 6.選擇資料探勘演算法 7.資料探勘 尋找有趣的模式 8.模式評估和知識展示 9.知識發現的使用 方法 ...

資料探勘 學習日誌

主要知道每乙個函式的返回值是什麼 set是乙個無序不重複的序列 tolist 列表裡面套列表 temp list df genre str.split tolist 疑惑 這個迴圈不太懂 genre list list set i for j in temp list for i in j 用雙重迴...