資料倉儲與資料探勘 學習筆記 第一章 緒論

2021-09-25 21:04:37 字數 1173 閱讀 7251

引言:

資料倉儲是以關聯式資料庫,並行處理和分布式技術為基礎的資訊新技術.

資料倉儲是乙個面向主題的,整合的,時變的,非易失的資料集合,用於支援股那裡決策.

資料倉儲和資料庫的對比:

資料庫資料倉儲

面向應用

面向主題

資料是詳細的

資料是綜合或提煉的

資料是可更新的

資料是不可更新的

對資料操作是重複的

對資料的操作是啟發式的

操作需求是事先可知的

操作需求不可知

乙個操作儲存乙個記錄

乙個操作儲存乙個集合

資料非冗餘

資料時常是冗餘的

操作較頻繁

操作相對不頻繁

查詢的是原始資料

查詢的經過加工的資料

事物處理需要的是當前資料

決策分析需要過去,現在的資料

很少有複雜的運算

很多複雜的計算

支援事務處理

支援決策分析。

資料庫的資料字典

資料字典是資料庫各類資料描述的集合,通常包括如下:

資料倉儲的元資料:

元資料秒速了資料倉儲的資料和環境,記錄了資料倉儲有什麼,資訊的內容和位置,資料的抽取和轉換規則,儲存了和資料倉儲主題有關的資訊,而且整個資料倉儲的執行都是基於元資料的,如資料的修改,跟蹤、抽取等。是資料倉儲的核心。資料倉儲的元資料對資料倉儲中的資料描述包含還有:

外部資料來源

資料清洗:清洗錯誤、不一致的資料等

資料轉換:將不同的資料轉換為統一的資料格式。

資料載入:將清洗後的資料載入到資料倉儲的過程。

元資料:元資料是關於資料的資料,存在於程式和資料中,是資訊處理環境中的一部分。元資料位於資料倉儲的上層,而且能夠記錄資料倉儲中物件的位置。

資料集市:面向某個部門或者主題在邏輯上或物理上劃分出來的資料倉儲的一部分子集。

資料粒度:粒度指的是資料倉儲中資料儲存單位的細化程度或者綜合程度的區別。

資料倉儲在邏輯思維可以分為三個層次:

資料分析應用層。面向一般使用者,注意實現的功能為查詢、統計、olap和資料探勘服務。

資料探勘 資料倉儲

雖然存在資料倉儲並不是資料探勘的先決條件,但實際上,若能訪問資料倉儲,資料探勘的任務就會變得容易的多。資料倉儲的主要目標是增加決策過程的 情報 和此過程的相關人員的知識。資料倉儲對不同的人來說有不同的意義。資料倉儲是乙個整合的,面向主題的資料庫集合,用於實現決策支援功能 dsf 其中的每個資料單元都...

資料倉儲(OLAP OLTP)與資料探勘

一 挖掘資料存在問題 1 把來自各個資料來源的資料匯集到乙個中心倉庫中,即資料倉儲。資料倉儲位於乙個單獨的節點上,使用同一的模式從多個資料來源收集資料,給使用者提供乙個單獨的 統一的資料介面,目的是能在不同的資料上高效執行查詢。2 分析收集到的資料發現可以成為商務決策基礎的資訊或知識。資料探勘 目標...

資料倉儲與資料探勘學習筆記(三)OLAP技術

學習心得 一 什麼是olap?在以前20世紀60年代末,關係型資料庫與oltp得到了快速發展,隨著時間的延續,全球資料暴增,越來越多的資料被生產,同時人們對資訊的需求也更加發雜,希望盡可能從gb,tb甚至pb資料直觀的連線隱藏在這些資料背後的資訊,傳統的oltp顯得力不從心了,於是資料倉儲跟olap...