資料探勘流程

2021-08-16 05:02:26 字數 1253 閱讀 5001

crisp-dm (cross-industry standard process for data mining), 即為"跨行業資料探勘過程標準"。此kdd(knowledge discovery in database )

過程模型於2023年歐盟機構聯合起草. 通過近幾年的發展,crisp-dm 模型在各種kdd過程模型中佔據領先位置,採用量達到近60%。crisp-dm強調,dm不單是資料的組織或者呈現,也不僅是資料分析和統計建模,而是乙個從理解業務需求、尋求解決方案到接受實踐檢驗的完整過程。

知識發現(kdd:knowledge discovery database):  是從資料集中識別出有效的、新穎的、潛在有用的、以及最終可理解模式的非凡過程。知識發現是講資訊變為知識,從資料礦山中挖掘到的知識模型,將為知識創新和知識經濟的發展做出貢獻。該術語於2023年出現,fayyad定義為"kdd"是從資料集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程"。

crisp-dm的六個階段

crisp-dm模型為乙個kdd工程提供了乙個完整的過程描述,乙個資料探勘專案的生命週期包含六個階段,這六個階段的順序不是固定的,工作中經常需要前後調整這個階段。這依賴每個階段或是階段中的特定任務的產物是不是下一階段必須的輸入。

最初的階段集中在理解專案目標和從業務的角度理解需求,同時將這個知識轉化為資料探勘問題的定義和完成目標的初步計畫。

資料理解階段從初始的資料收集開始,通過一些活動的處理,目的是熟悉資料,識別資料的質量問題,首次發現資料的內部屬性,或是探測引起興趣的子集去形成隱含資訊的假設。

資料準備階段包括從未處理資料中構造最終資料集的所有預處理。這些資料將是模型工具的輸入值。這個階段的任務有個能執行多次,沒有任何規定的順序。任務包括表、記錄和屬性的選擇,以及為模型工具轉換和清洗資料。

在這個階段,可以選擇和應用不同的模型技術,模型引數被調整到最佳的數值。一般,有些技術可以解決一類相同的資料探勘問題。有些技術在資料形成上有特殊要求,因此需要經常跳回到資料準備階段。

到專案的這個階段,你已經從資料分析的角度建立了乙個高質量顯示的模型。在開始最後部署模型之前,重要的事情是徹底地評估模型,檢查構造模型的步驟,確保模型可以完成業務目標。這個階段的關鍵目的是確定是否有重要業務問題沒有被充分的考慮。在這個階段結束後,乙個資料探勘結果使用的決定必須達成。

通常,模型的建立不是專案的結束。模型的作用是從資料中找到知識,獲得的知識需要便於使用者使用的方式重新組織和展現。根據需求,這個階段可以產生簡單的報告,或是實現乙個比較複雜的、可重複的資料探勘過程。在很多案例中,這個階段是由客戶而不是資料分析人員承擔部署的工作。

資料探勘流程

下面是資料探勘流程 crisp dm 跨行業資料探勘標準流程 這是目前業界主流的 資料探勘流 程,其實本人覺得這也是統計學 建 模方式的語言模式,大家都是這麼做的,只是用個專門的流程會方便一些 1 業務理解 理解專案的目標和從業務的角度理解需求,同時將這個知識轉化為資料探勘問題的定義和完成目標的初步...

資料探勘流程

一 業務理解 主要任務是深刻理解業務需求,在此基礎上制定資料探勘的目標和實現目標的初步計畫。二 資料理解 收集資料,熟悉資料,識別資料的質量問題和探索引起興趣的子集。三 資料準備 從收集來的資料集選擇必要的屬性 因素 並按關聯關係將它們連線成乙個資料集,然後進行資料清洗 即空值及異常值處理 離群值剔...

資料探勘的流程

資料探勘環境 資料探勘是指乙個完整的過程,該過程從大型資料庫中挖掘先前未知的,有效的,可實用的資訊,並使用這些資訊做出決策或豐富知識.資料探勘環境可示意如下圖 7.2資料探勘過程圖 下圖描述了資料探勘的基本過程和主要步驟 資料探勘的基本過程和主要步驟 7.3 資料探勘過程工作量 在資料探勘中被研究的...