資料探勘的基本流程

2021-10-01 15:25:14 字數 950 閱讀 6893

一、資料探勘的過程可以分成以下 6 個步驟。

1. 商業理解:資料探勘不是我們的目的,我們的目的是更好地幫助業務,所以第一步我們

要從商業的角度理解專案需求,在這個基礎上,再對資料探勘的目標進行定義。

2. 資料理解:嘗試收集部分資料,然後對資料進行探索,包括資料描述、資料質量驗證

等。這有助於你對收集的資料有個初步的認知。

3. 資料準備:開始收集資料,並對資料進行清洗、資料整合等操作,完成資料探勘前的準

備工作。

4. 模型建立:選擇和應用各種資料探勘模型,並進行優化,以便得到更好的分類結果。

5. 模型評估:對模型進行評價,並檢查構建模型的每個步驟,確認模型是否實現了預定的

商業目標。

6. 上線發布:模型的作用是從資料中找到金礦,也就是我們所說的「知識」,獲得的知識

需要轉化成使用者可以使用的方式,呈現的形式可以是乙份報告,也可以是實現乙個比較

複雜的、可重複的資料探勘過程。資料探勘結果如果是日常運營的一部分,那麼後續的

監控和維護就會變得重要。

二、資料探勘的十大演算法

為了進行資料探勘任務,資料科學家們提出了各種模型,在眾多的資料探勘模型中,國際

權威的學術組織 icdm (the ieee international conference on data mining)評選出

了十大經典的演算法。

l 分類演算法:c4.5,樸素貝葉斯(***** bayes),svm,knn,adaboost,cart

l 聚類演算法:k-means,em

l 關聯分析:apriori

l 連線分析:pagerank

三、資料探勘的數學原理

1. 概率論與數理統計

2. 線性代數

3. 圖論

4. 最優化方法

資料探勘 筆記 閱讀之資料探勘比賽基本流程

乾貨 kaggle 資料探勘比賽經驗分享 資料分析,資料清洗,特徵工程,模型訓練和驗證等四個大的模組 離散值 目標變數的分布 離散值 某個id上面不平衡 變數之間的分布和相關度,發現高相關和共線性的特徵 預處理 特徵缺失值的處理 連續值 偏正態分佈用均值代替,保持資料均值 長尾分布用中值代替,避免受...

資料探勘的流程

資料探勘環境 資料探勘是指乙個完整的過程,該過程從大型資料庫中挖掘先前未知的,有效的,可實用的資訊,並使用這些資訊做出決策或豐富知識.資料探勘環境可示意如下圖 7.2資料探勘過程圖 下圖描述了資料探勘的基本過程和主要步驟 資料探勘的基本過程和主要步驟 7.3 資料探勘過程工作量 在資料探勘中被研究的...

資料探勘流程

下面是資料探勘流程 crisp dm 跨行業資料探勘標準流程 這是目前業界主流的 資料探勘流 程,其實本人覺得這也是統計學 建 模方式的語言模式,大家都是這麼做的,只是用個專門的流程會方便一些 1 業務理解 理解專案的目標和從業務的角度理解需求,同時將這個知識轉化為資料探勘問題的定義和完成目標的初步...