資料探勘的流程

2021-04-16 16:03:12 字數 1780 閱讀 7423

資料探勘環境

資料探勘是指乙個完整的過程,該過程從大型資料庫中挖掘先前未知的,有效的,可實用的資訊,並使用這些資訊做出決策或豐富知識.

資料探勘環境可示意如下圖:

7.2資料探勘過程圖

下圖描述了資料探勘的基本過程和主要步驟

資料探勘的基本過程和主要步驟

7.3 資料探勘過程工作量

在資料探勘中被研究的業務物件是整個過程的基礎,它驅動了整個資料探勘過程,也是檢驗最後結果和指引分析人員完成資料探勘的依據和顧問.圖2各步驟是按一定順序完成的,當然整個過程中還會存在步驟間的反饋.資料探勘的過程並不是自動的,絕大多數的工作需要人工完成.圖3給出了各步驟在整個過程中的工作量之比.可以看到,60%的時間用在資料準備上,這說明了資料探勘對資料的嚴格要求,而後挖掘工作僅佔總工作量的10%.

圖3資料探勘過程工作量比例

7.4資料探勘過程簡介

過程中各步驟的大體內容如下:

1.1. 確定業務物件

清晰地定義出業務問題,認清資料探勘的目的是資料探勘的重要一步.挖掘的最後結構是不可**的,但要探索的問題應是有預見的,為了資料探勘而資料探勘則帶有盲目性,是不會成功的.

2.2. 資料準備

1)1) 資料的選擇

搜尋所有與業務物件有關的內部和外部資料資訊,並從中選擇出適用於資料探勘應用的資料.

2)2) 資料的預處理

研究資料的質量,為進一步的分析作準備.並確定將要進行的挖掘操作的型別.

3)3) 資料的轉換

將資料轉換成乙個分析模型.這個分析模型是針對挖掘演算法建立的.建立乙個真正適合挖掘演算法的分析模型是資料探勘成功的關鍵.

3.3. 資料探勘

對所得到的經過轉換的資料進行挖掘.除了完善從選擇合適的挖掘演算法外,其餘一切工作都能自動地完成.

4.4. 結果分析

解釋並評估結果.其使用的分析方法一般應作資料探勘操作而定,通常會用到視覺化技術.

5.5. 知識的同化

將分析所得到的知識整合到業務資訊系統的組織結構中去.

7.5資料探勘需要的人員

資料探勘過程的分步實現,不同的步會需要是有不同專長的人員,他們大體可以分為三類.

業務分析人員:要求精通業務,能夠解釋業務物件,並根據各業務物件確定出用於資料定義和挖掘演算法的業務需求.

資料分析人員:精通資料分析技術,並對統計學有較熟練的掌握,有能力把業務需求轉化為資料探勘的各步操作,並為每步操作選擇合適的技術.

資料管理人員:精通資料管理技術,並從資料庫或資料倉儲中收集資料.

從上可見,資料探勘是乙個多種專家合作的過程,也是乙個在資金上和技術上高投入的過程.這一過程要反覆進行牞在反覆過程中,不斷地趨近事物的本質,不斷地優先問題的解決方案。資料重組和細分新增和拆分記錄 選取資料樣本視覺化資料探索聚類分析神經網路、決策樹數理統計、時間序列結論綜合解釋評價資料知識資料取樣資料探索資料調整模型化評價。

資料探勘流程

下面是資料探勘流程 crisp dm 跨行業資料探勘標準流程 這是目前業界主流的 資料探勘流 程,其實本人覺得這也是統計學 建 模方式的語言模式,大家都是這麼做的,只是用個專門的流程會方便一些 1 業務理解 理解專案的目標和從業務的角度理解需求,同時將這個知識轉化為資料探勘問題的定義和完成目標的初步...

資料探勘流程

crisp dm cross industry standard process for data mining 即為 跨行業資料探勘過程標準 此kdd knowledge discovery in database 過程模型於1999年歐盟機構聯合起草.通過近幾年的發展,crisp dm 模型在各...

資料探勘流程

一 業務理解 主要任務是深刻理解業務需求,在此基礎上制定資料探勘的目標和實現目標的初步計畫。二 資料理解 收集資料,熟悉資料,識別資料的質量問題和探索引起興趣的子集。三 資料準備 從收集來的資料集選擇必要的屬性 因素 並按關聯關係將它們連線成乙個資料集,然後進行資料清洗 即空值及異常值處理 離群值剔...