資料倉儲與資料探勘學習筆記(三)OLAP技術

2021-09-27 03:28:31 字數 1478 閱讀 8178

學習心得

一、什麼是olap?

在以前20世紀60年代末,關係型資料庫與oltp得到了快速發展,隨著時間的延續,全球資料暴增,越來越多的資料被生產,同時人們對資訊的需求也更加發雜,希望盡可能從gb,tb甚至pb資料直觀的連線隱藏在這些資料背後的資訊,傳統的oltp顯得力不從心了,於是資料倉儲跟olap技術營運而生。

定義:針對某個特定的主題進行聯機資料訪問,處理和分析,通過直觀的方式從多個維度多種資料綜合起來給使用者**。

二、olap和oltp區別

三、簡述olap和資料倉儲的關係

建立資料倉儲的目的是為公司決策使用的,olap服務作為一種多維查詢和分析工具,是資料倉儲功能的自然擴充套件,也是資料倉儲大資料量得以有效利用,快速查詢的重要保障。主要用於分析查詢資料倉儲的資料進行聚合操作。

四、簡述有哪些olap的常用操作

1、切片

2、切塊

3、旋轉

4、上捲

5、下鑽

五、olap的分類

主流的olap資料組織方式有3中,

rolap(基於關係型資料庫的olap)

molap(基於多維資料庫的olap)

holap(基於關係型資料庫與多維資料庫的olap)

六、olap索引

主要分為倆大類:位圖索引,連線索引

位圖索引:在olap中是很流行的,因為他允許在資料立方體中快速索引,位圖索引方法描述如下:

在給定屬性的點陣圖索引中,屬性域中的每個值v有乙個不同的維向量bv,如果給定的屬性域包含n個值,則點陣圖索引中以n偽向量表示不同的值,如果資料表給定行上 的屬性為是v,則在位圖索引行,表示該值的位是1,其他值是0,大家是不是覺得很繞口,接下來舉個例子

例如,有(a,b,c)三維資料立方體,維a在頂層有3個值(hsc),每個值用維a的點陣圖索引表的乙個位向量表示,如圖,假定立方體存放在乙個具有a行的關係表中,維i的域有m個,對應的點陣圖索引則需要m個位向量,每個維向量有a個二進位制位。

由於維上的每個值是乙個維向量,位操作非常快,所以其效能會得到大幅度提高

ps:位圖索引對於基數較小的域特別有用,因為比較,連線,聚集都變成了位運算,大大減小處理時間,對於字串可以用單個二進位制表示,位圖索引降低了空間和io消耗,對於基數較高的域,可以使用壓縮技術,這種方式可以接受。

連線索引其實就是乙個事實表引用了外部眾多維度表的主鍵,跟mysql主外來鍵性質一樣。

資料探勘 資料倉儲

雖然存在資料倉儲並不是資料探勘的先決條件,但實際上,若能訪問資料倉儲,資料探勘的任務就會變得容易的多。資料倉儲的主要目標是增加決策過程的 情報 和此過程的相關人員的知識。資料倉儲對不同的人來說有不同的意義。資料倉儲是乙個整合的,面向主題的資料庫集合,用於實現決策支援功能 dsf 其中的每個資料單元都...

資料倉儲學習筆記三

太上有立德,其次有立功,其次有立言,雖久不廢,此謂不朽。左傳 簡單解釋 二者的區別 維度表的冗餘很大,主要是因為維度一般不大 相對於事實表來說的 而維度表的冗餘可以使事實表節省很多空間。事實表一般都很大,如果以普通方式查詢的話,得到結果一般發的時間都不是我們可以接受的。所以它一般要進行一些特殊處理。...

資料倉儲(OLAP OLTP)與資料探勘

一 挖掘資料存在問題 1 把來自各個資料來源的資料匯集到乙個中心倉庫中,即資料倉儲。資料倉儲位於乙個單獨的節點上,使用同一的模式從多個資料來源收集資料,給使用者提供乙個單獨的 統一的資料介面,目的是能在不同的資料上高效執行查詢。2 分析收集到的資料發現可以成為商務決策基礎的資訊或知識。資料探勘 目標...