資料探勘系列之一 資料倉儲初窺

2021-08-27 06:42:08 字數 759 閱讀 5113

資料倉儲是乙個從多個資料來源收集的資訊儲存庫,存放在乙個一致的模式下,並且通常駐留在單個站點。資料倉儲通過資料清理、資料變換、資料整合、資料裝入和定期資料重新整理過程來構造。

資料倉儲收集了整個組織的主題資訊,因此它是企業範圍的。資料集市(data mart)是資料倉儲的乙個部門子集,它聚焦在選定的主題上,是部門範圍的。

資料倉儲非常適合聯機分析處理(olap)。olap操作包括下鑽(drill-down)和上捲(roll-up),允許使用者在不同的彙總級別觀察資料。

stanford大學的whips(warehouse information prototype at stanford)提出的資料倉儲體系結構(如下圖)中,底層是多個資訊源,資訊源可以是關係型資料或者其他資料,如flat files,html docs,knowledge base,legacy data等。包裝器部件將資訊整理成資料倉儲中使用的資料模型,監視器部件負責對本地資訊源中需要提取的資料及其變化做自動探測,並把它們報告給整合器。

當乙個新的資訊源連線到資料倉儲或者某資訊源狀態發生變化,monitor將新資料或者修改過的資料發給integrator。integrator負責把資訊installing到dw中,其間可能還需要filtering,summary,merging等操作。

資料倉儲中包含大量的歷史性資訊,而底層的資料來源一般不維護這些資訊。因此,傳統檢視反映底層資料,而資料倉儲反映底層資料的歷史。

資料探勘系列之二 資料探勘初窺

1.why 為什麼需要資料探勘 資料庫系統經歷了如下的技術演變 資料收集和資料庫建立,資料管理 dbms,包括資料儲存和檢索,聯機事務處理oltp 以及高階資料分析 涉及資料倉儲和資料探勘 當前常見的資料集形式為多個異構資料來源在單個站點以統一的模式組織的儲存庫,即資料倉儲。資料倉儲技術包括資料清理...

資料倉儲應用(一) 資料倉儲模型設計

關聯文章 資料倉儲應用 二 資料抽取 轉換 載入 etl 資料倉儲應用 三 sql server 2005的資料倉儲應用 聯機分析olap 一 問題背景 某電子商務 主要銷售電子類產品,產品又分為幾個大類別,包括 電腦類 手機類 鍵盤類等,每個類別內又細分為幾個小類別,各類別下又有諸多的商品,每乙個...

資料探勘 資料倉儲

雖然存在資料倉儲並不是資料探勘的先決條件,但實際上,若能訪問資料倉儲,資料探勘的任務就會變得容易的多。資料倉儲的主要目標是增加決策過程的 情報 和此過程的相關人員的知識。資料倉儲對不同的人來說有不同的意義。資料倉儲是乙個整合的,面向主題的資料庫集合,用於實現決策支援功能 dsf 其中的每個資料單元都...