CRISP DM(跨行業資料探勘標準流程

2021-07-30 13:01:33 字數 1194 閱讀 9595

跨行業資料探勘標準流程(crisp-dm):

(cross-industry standard process for data mining)。

此kdd過程模型於2023年歐盟機構聯合起草.通過近幾年的發展,crisp-dm模型在各種kdd過程模型中佔據領先位置,採用量達到近60%.(資料引自ciosandkurgan於2023年合著的**trands in data mining and knowledge discovery中)

crisp-dm並不是什麼新觀念,本質來看就是在分析應用中提出問題、分析問題和解決問題的過程。而可貴之處在於其提綱挈領的特性,非常適合工程管理,適合大規模定製,以至crisp-dm如今已經成為事實上的行業標準,"調查顯示,50%以上的資料探勘工具採用的都是crisp-dm的資料探勘流程"。

知識發現(kdd:knowledge discovery in database):是從資料集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程。知識發現將資訊變為知識,從資料礦山中找到蘊藏的知識金塊,將為知識創新和知識經濟的發展作出貢獻。該術語於2023年出現,fayyad定義為"kdd"是從資料集中識別出有效的、新穎的、潛在有用的,以及最終可理解的模式的非平凡過程"。

實現流程(crisp-dm過程5)

crisp-dm模型為乙個kdd工程提供了乙個完整的過程描述.該模型將乙個kdd工程分為6個不同的,但順序並非完全不變的階段.

1:business understanding:即商業理解.在第乙個階段我們必須從商業的角度上面了解專案的要求和最終目的是什麼.並將這些目的與資料探勘的定義以及結果結合起來.

2.data understanding:資料的理解以及收集,對可用的資料進行評估.

3:data preperation:資料的準備,對可用的原始資料進行一系列的組織以及清洗,使之達到建模需求.

4:modeling:即應用資料探勘工具建立模型.

5:evaluation:對建立的模型進行評估,重點具體考慮得出的結果是否符合第一步的商業目的.

6:deployment:部署,即將其發現的結果以及過程組織成為可讀文字形式.(資料探勘報告)

資料探勘方法 CRISP DM跨行業標準過程

資料探勘活動主要分為無監督和有監督兩大類。在無監督資料探勘中,我們對各個變數不區別對待,而是考察它們之間的關係。這類方法有描述和視覺化 關聯規則分析 聚類分析 主成分分析等。在有監督資料探勘中,我們希望建立根據一些變數來 另一些變數的模型,前者被稱為自變數,後者被稱為因變數。有監督資料探勘能從資料中...

跨行業關鍵詞 拓撲

拓撲學 topology 是研究幾何圖形或空間在連續改變形狀後還能保持不變的一些性質的學科。它只考慮物體間的位置關係而不考慮它們的形狀和大小。1 拓撲英文名是topology,直譯是地誌學,最早指研究地形 地貌相類似的有關學科。幾何拓撲學是十九世紀形成的一門數學分支,它屬於幾何學的範疇。有關拓撲學的...

年終終結 跨語言跨行業

伴隨著oa轉正流程的結束,也正式轉正了,隨著年會的結束,這一年的工作也要接近尾聲了,很久沒寫部落格了,感覺時間飛逝 歲月如鑠,這一年感觸很多。閱讀網 首先,解釋一下標題,為啥是跨語言 跨行業?首先跨語言,之前主要用的c語言,現在全部都是c 可能有人會說,這也不是跨語言啊?如果你熟悉c c 就會知道學...