資料探勘入門系列 資料探勘基礎

2022-01-09 22:53:11 字數 1079 閱讀 4952

伴隨著資訊化系統建設的發展,各行各業的中大型企業都儲存了大量的業務資料。很多的企業想要通過對這些資料的分析,來發現新的商機以及從這些資料中找到提高盈利的方法。大部分的企業,都是憑藉管理人員的自身個人經驗來開展這項工作。如果有一套系統,能夠自動地或者半自動地發現相關的知識和解決方案,這樣將會有效地提高企業的決策水平和競爭能力。從大量資料中挖掘出隱含的、未知的、對決策有價值的資訊的方法、工具以及工作過程,就是資料探勘。通過資料探勘可以在這些資料中找到其中的規律、發現資料之間的關係。資料探勘是統計學、資料庫技術和人工智慧的結合產物。

一般的資料探勘的實施步驟通過以下幾點來進行:

明確需求

資料抽樣

資料探索

資料預處理

資料探勘建模

模型評估

在開展資料探勘開發之前,要確定使用者的需求是什麼。也就是說,資料探勘系統開發完了之後,能夠達到什麼樣的效果呢?所以,此階段需要去了解客戶的業務背景、業務過程,弄清楚客戶的真正需求。

真實的企業環境中,往往存在多種多樣的資料。不是所有的資料都跟資料探勘系統有關,我們需要從這些大量資料走過來,抽取到與目標相關的資料子集,從而減少資料處理量,節省系統資源。而且,有針對性的抽取資料,跟有利於發現真正有價值的資料。

拿到抽樣後的資料後,需要對資料有乙個基本的認識。而不能拿到資料之後,就直接開展分析。所以,我們需要對抽樣後的資料,進行初步地探索分析,去發現樣本資料中是否存在某些明顯的規律、或者趨勢。這樣方便後續對資料更有效地處理,保證後續資料的質量。例如:找到資料中的一些異常值、缺失的資料等等。

取樣的資料中,往往都存在一些垃圾資料、或者是不完整、不一致的資料,這樣會造成後續的分析結果是不準確的。所以,在進行資料探勘之前,就應該對資料進行預處理來改善資料的質量。資料預處理包含了:

資料預處理之後,就可以開始來進行資料探勘建模了。在建模之前,首先得明白,我們要解決是哪一類問題(例如:分類、聚類、關聯、推薦…等等),針對該類問題,應該使用哪種演算法構建模型?所以,簡單理解,資料探勘建模過程其實主要就是根據問題選擇是用的演算法

建立資料探勘模型之後,就可以使用該模型來進行**、分析。**分析的結果未必準確。我們需要對該結果進行評估或者評價。從而優化模型。要根據實際的業務情況來優化模型。

資料探勘入門

性挖掘 對當前資料進行推斷,以做出 主要包括分類 回歸。分類 將樣本劃分到幾個預定義類,屬於離散。回歸 將樣本對映到乙個真實值 變數上,連續值。描述資料 描述資料庫中資料的一般性質。聚類 將樣本劃分為不同類 無預定義類 關聯規則發現 發現資料集中相關性。聚類分析,在發現緊密相關的觀測值組群,可以在沒...

資料探勘入門系列 Python快速入門

本次入門系列將使用python作為開發語言。要使用python語言,我們先來搭建python開發平台。我們將基於python 2.7版本 以及python的開發發行版本anaconda版本來開發。anaconda指的是乙個開源的python發行版本,其包含了conda python等180多個科學包...

資料探勘系列之二 資料探勘概述

資料庫系統經歷了如下的技術演變 資料收集和資料庫建立,資料管理 dbms,包括資料儲存和檢索,聯機事務處理oltp 以及高階資料分析 涉及資料倉儲和資料探勘 當前常見的資料集形式為多個異構資料來源在單個站點以統一的模式組織的儲存庫,即資料倉儲。資料倉儲技術包括資料清理 資料整合和聯機分析處理olap...