資料探勘學習筆記四

2021-07-31 12:15:00 字數 2349 閱讀 9446

1.星型結構(star schema)

將事實表和維表進行連線(join),可以得到資料的值以及對資料的多維描述.

2.雪花模型(snowflake schema)

由」星型模型」演變來的, 某些維表是規範化的, 以便減少冗餘.

3.星座模型

在星型模型的基礎上,具有多個事實表.

4.雪暴模型

在星座模型的基礎上,構造維表的多層次結構.

4種模型關係圖

如何用關聯式資料庫的二維表表達多維概念?

rolap將多維資料庫中的多維結構劃分為兩類表:一類是維表,用來記錄維度資訊。另一類是事實表,用來儲存維度交叉點處的度量資訊及各個維度的碼值。這樣多維資料立方體各個座標軸上的刻度以及立方體各個交點的取值都被記錄下來,因而資料立方體的全部資訊就被記錄了下來。

多維資料庫(mddb):從多個角度觀察資料,多維陣列元素為度量變數的值。

維的分類:維的分類是對維取值的劃分。

類與層次的區別:表達的意義不同;在層次和類上進行的分析動作不同.

多維資料庫儲存

mddb由許多經壓縮的,類似於陣列的物件構成,通常帶有高度壓縮的索引及指標結構.

每個物件由聚集成組的單元塊組成,每個單元塊都按類似於多維陣列的結構儲存,並通過計算偏移進行儲存.

資料倉儲包含海量資料,要求olap伺服器在若干秒內回答決策支援問題。

資料立方體的有效計算

多維資料分析的核心是有效地計算各個維集合上的聚集。按sql術語,這些聚集稱為group-by(分組)。每個分組可以用乙個方體表示,其中分組的集合形成資料立方體的方體格。

預計算:對於不同的查詢分析,olap可能需要訪問不同的方體。因此,提前計算資料立方體中所有的或者一部分方體,可以帶來快速的響應時間,並避免一定的冗餘計算。

部分物化:方體的選擇計算

資料立方體的物化有三種選擇:

(1)不物化:不預計算任何「非基本」方體。

(2)完全物化:預計算所有方體。

(3)完全物化:有選擇地計算整個可能的方體集中乙個適當的子集。

索引olap資料 ,提供有效的olap資料訪問

位圖索引:在給定屬性的點陣圖索引中,屬性域中的每個值v有乙個不同的位向量bv。如果給定的屬性域包含n個值,則點陣圖索引中以n位向量表示每個不同的值。如果資料表給定行上該屬性值為v,則在位圖索引的對應行,表示該值的位為1.該行的其他位均設為0

連線索引:記錄兩個關係的可連線行。對於星型模型的資料倉儲非常有用。

(1)olap模型必須提供多維概念檢視

(2)透明性準則

(3)訪問能力準則

(4)穩定報表效能

(5)客戶/伺服器體系結構

(6)維的等同性準則

(7)動態稀疏矩陣處理準則

(8)多使用者支援能力準則

(9)非受限的跨維操作

(10)直觀的資料處理

(11)靈活的報表生成

(12)非受限的維與維的層次

資料探勘學習筆記(四)

資料的屬性 1.資料物件 資料物件又稱為樣本 例項 資料點 物件或元組。資料物件用屬性描述。資料表的行對應資料物件,列對應屬性。2.屬性 attributes 3.屬性型別 二元屬性 binary attribute 布林屬性 序數屬性 ordinal attribute 數值屬性 numeric ...

web資料探勘(學習筆記) 觀點挖掘

觀點挖掘 1.主要挖掘非結構化的文字,涉及自然語言處理技術 2.網路已經顯著改變人們表達觀點的方式,使用者生成的內容已經成為 的一種形式 3.主要研究三方面的觀點挖掘的任務 意見分類 基於特徵觀點挖掘和摘要 比較句子和比較關係挖掘 4.意見分類 文件層次上分類,將評價分類到正面,或者負面。當前大多研...

資料探勘學習筆記 3

常見的資料融合方法有 靜態的融合方法,如加權最小平方等 動態的融合方法,如遞迴加權最小平方 卡爾曼濾波 小波變換的分布式濾波等 基於統計的融合方法,如馬爾可夫隨機場 最大似然法 貝葉斯值等 基於資訊理論演算法的方法,如聚集分析 自適應神經網路 表決邏輯 資訊熵 基於模糊集理論的聚類方法等。資料清理的...