資料分析資料探勘的步驟

2021-10-21 00:21:40 字數 930 閱讀 6500

資料探勘主要包括以下幾個步驟:

【目的】

清楚挖掘的目的是什麼?

想要達到的目的是什麼?

【目的】抽取與挖掘目的相關的資料集

【目的】保證資料的質量,為模型質量打下基礎

可以從資料質量分析和資料特徵分析兩個角度對資料進行探索

【目的】資料質量分析的主要任務是檢查原始資料中是否存在髒資料;

資料質量分析要求我們拿到資料後先檢測是否存在缺失值和異常值;

【目的】資料特徵分析要求我們在資料探勘建模前,通過頻率分析、對比分析、帕累託分析、週期分析、相關性分析等方法,對採集的樣本資料的特徵規律進行分析,以了解資料的規律和趨勢,為資料探勘的後續環節提供支援

【目的】

提高資料的質量

讓資料更好的適應特定的挖掘技術和工具

資料清洗

資料整合

資料變換

資料規約

【目的】資料清洗主要是刪除原始資料中無關資料、重複資料,平滑雜訊資料,篩選掉與挖掘主題無關的資料,處理缺失值、異常值等

【目的】將多個資料來源合併存放在乙個一致的資料儲存中;

需要考慮實體識別和屬性冗餘問題;

【目的】對資料進行規範化處理

【方法】簡單函式變換、規範化(最小-最大規範化、零-均值規範化、小數定標規範化等)、連續屬性離散化、小波變換

【目的】產生更小但保持源資料完整性的新資料集

【方法】屬性規約(通過屬性合併來建立或刪除或合併屬性)、數值規約(通過選擇替代的、較小的資料來減少資料量)

【目的】分析本次建模屬於資料探勘應用種的哪類問題(分類、聚類、關聯規則、事需模型或智慧型推薦等)

根據挖掘目標和資料形式可以建立分類與**、聚類分析、關聯規則、事需模型和偏差檢測等模型

【方法】

【目的】在多個模型中找出乙個最好的模型

根據業務對模型進行解釋和應用

資料分析與資料探勘

一 常用資料探勘方法 1 關聯方法 2 人工神經網路 3 決策樹 4 異常分析 5 聚類分析 6 arima測試 二 資料分析師 國內兩種資料分析師認證 資料分析師cda 專案資料分析師cpda cda 1 統計概率基礎 2 資料分析模型方法 3 工具的運用 spss,modeler 三 資料分析的...

資料分析和資料探勘

什麼是資料分析與資料探勘 資料分析 對已知資料進行分析,然後提取一些有價值的資訊 比如 統計出平均數 標準差等資訊 資料探勘 對大量的資料進行分析挖掘,得到一些未知的,有價值的資訊等。比如從 的使用者或使用者行為資料中挖掘出使用者其潛在需求資訊,從而對 進行改善 已知到未知 關係 資料分析和資料探勘...

資料分析與資料探勘

資料分析是指採用適當的統計分析方法對收集到的資料進行分析 概括和總結,對資料進行恰當的描述,並提取出有用的資訊的過程。資料探勘是指從海量的資料中通過相關的演算法發現隱藏在資料中的規律和知識的過程。知識發現的過程如下。1.資料清理 清除資料中的雜訊。3.資料選擇 從資料庫中選擇與任務有關的資料。4.資...