資料探勘系列之二 資料探勘初窺

2021-08-27 06:42:08 字數 1796 閱讀 6823

1.why(為什麼需要資料探勘)

資料庫系統經歷了如下的技術演變:資料收集和資料庫建立,資料管理(dbms,包括資料儲存和檢索,聯機事務處理oltp),以及高階資料分析(涉及資料倉儲和資料探勘)。當前常見的資料集形式為多個異構資料來源在單個站點以統一的模式組織的儲存庫,即資料倉儲。資料倉儲技術包括資料清理、資料整合和聯機分析處理olap。

-oltp:主要用於增刪改查操作,著眼於事務處理的及時性、完整性和正確性。其不足在於:缺乏整合性;主題不明確;分析和處理的效率低下

-olap:資料倉儲主要特點:面向主題、整合、隨時間變化、非易失。olap是資料倉儲的一部分。

-資料探勘:資料倉儲是進行資料探勘的基礎。一種常見的觀點認為,資料探勘包含資料描述和資料建模。olap可以提供資料倉儲中資料的一般描述,olap的功能基本上是使用者指導的彙總和比較(通過鑽取、旋轉、切片、切塊等操作)。這屬於資料探勘功能。根據這種觀點,資料探勘的涵蓋面比olap更寬,dm不僅執行資料彙總和比較,還執行特徵化、區分、關聯、分類、**、聚類、時間序列分析等資料分析任務。

參見: oltp不等於olap 從資料庫到資料倉儲

簡言之,資料豐富,但資訊缺乏(即如何從大量資料中獲取有用資訊)的現狀是推動資料探勘迅猛發展的動力所在。

資料探勘是指從大量資料中提取或「挖掘」知識。通常,資料探勘作為kdd的同義詞或者kdd的乙個基本步驟。kdd由以下步驟的迭代序列組成:

-資料清理(消除雜訊和不一致資料)

-資料整合(多種資料來源可以組合在一起)

-資料選擇(從資料庫中提取與分析任務相關的資料)

-資料變換(資料變換或統一成適合挖掘的形式)

-資料探勘(基本步驟,使用智慧型方法提取資料模式)

-模式評估(根據某種興趣度度量,識別表示知識的真正有趣的模式)

-知識表示(視覺化)

前4步屬於資料預處理的範疇。

典型的資料探勘系統結構包括資料庫和/或資料倉儲及相應的伺服器,資料探勘引擎和模式評估模組(二者與知識庫互動),以及圖形使用者介面。資料探勘系統應當提供與資料庫和/或資料倉儲系統的緊密耦合或半緊密耦合。(存在不耦合、鬆散耦合、半緊密耦合和緊密耦合4種情況)

資料探勘可用於任何型別的資訊儲存庫以及瞬態資料(如資料流)。包括關聯式資料庫、資料倉儲、事務資料庫、高階資料庫系統、一般檔案、資料流和全球資訊網。

資料探勘功能用於指定資料探勘任務要找的模式型別。一般地,資料探勘任務可以分為兩類:描述和**。

資料探勘功能以及它們可以發現的模式型別如下:

-概念/類描述:特徵化和區分

-挖掘頻繁模式、關聯和相關(關聯分析中引入支援度support和置信度confidence)

-分類和**(分類是離散的標號,常見方法有if-then規則、決策樹、數學公式、神經網路;**則指連續的數值**,常用回歸分析法)

-聚類分析(不同於分類和**,訓練資料中不提供類標號)

-離群點分析outlier mining(用於發現異常)

-演變分析evolution analysis

支援度(support):滿足規則的事務資料庫的事務所佔的百分比,表徵實用性。p(x並y),x並y表示同時包含x和y的事務。

置信度(confidence):體現發現的規則的確定性程度。p(y|x),即x發生的條件下y發生的概率。

有時還需要考慮主觀興趣度度量。

-任務相關資料

-背景知識

-發現模式的視覺化

可以設計資料探勘查詢語言整合這些原語,允許使用者靈活地與資料探勘系統互動。

-資料探勘技術和使用者互動問題(如處理雜訊,模式評估即興趣度問題)

-效能問題(如並行和分布式資料探勘演算法)

-資料庫型別多樣性問題

資料探勘系列之二 資料探勘概述

資料庫系統經歷了如下的技術演變 資料收集和資料庫建立,資料管理 dbms,包括資料儲存和檢索,聯機事務處理oltp 以及高階資料分析 涉及資料倉儲和資料探勘 當前常見的資料集形式為多個異構資料來源在單個站點以統一的模式組織的儲存庫,即資料倉儲。資料倉儲技術包括資料清理 資料整合和聯機分析處理olap...

資料探勘系列之二 資料探勘概述

資料庫系統經歷了如下的技術演變 資料收集和資料庫建立,資料管理 dbms,包括資料儲存和檢索,聯機事務處理oltp 以及高階資料分析 涉及資料倉儲和資料探勘 當前常見的資料集形式為多個異構資料來源在單個站點以統一的模式組織的儲存庫,即資料倉儲。資料倉儲技術包括資料清理 資料整合和聯機分析處理olap...

資料探勘系列之一 資料倉儲初窺

資料倉儲是乙個從多個資料來源收集的資訊儲存庫,存放在乙個一致的模式下,並且通常駐留在單個站點。資料倉儲通過資料清理 資料變換 資料整合 資料裝入和定期資料重新整理過程來構造。資料倉儲收集了整個組織的主題資訊,因此它是企業範圍的。資料集市 data mart 是資料倉儲的乙個部門子集,它聚焦在選定的主...