資料探勘 概念與技術 第五章 資料立方體技術

2021-10-10 05:26:00 字數 2066 閱讀 1517

基本方體的單元是皆不能單元,非基本方體的單元是聚集單元

聚集單元在乙個或者多個維上聚集,其中每個聚集維用單元記號中的星號指示。假設有乙個n維資料立方體,如果a中恰有m個值不是星號,則我們說a是m維單元。如果m=n,則a是基本單元。

冰山立方體:部分物化的立方體

最小闕值稱為最小支援度闕值或簡稱最小支援度

為了系統地壓縮資料立方體,需要引入閉覆蓋的概念。

閉立方體:是乙個僅由閉單元組成的資料立方體

部分物化的另一種策略是只預計算涉及少數維的方體,這些方體形成對應的資料立方體的立方體外殼。

優化技術2:同時聚集和快取中間結果

優化技術3:當存在多個子女方體時,由最小的子女聚集。

優化技術4:可以使用先驗剪枝方法有效地計算冰山立方體。

如果單元c違反某條件,則c的每個後代也將違反該條件。遵守這一性質的度量稱為反單調的。

多路陣列聚集方法使用多維陣列作為基本的資料結果,計算完全資料立方體。它是一種使用陣列直接定址的典型molap方法,其中維值通過位置或對應陣列位置的下標訪問。

(1)把陣列劃分成塊。塊是乙個立方體,它足夠小,可以放入立方體計算時可用的記憶體。

(2)通過訪問立法體單元來計算聚集。

buc是一種計算稀疏冰山立方體的演算法。buc代表自底向上構造,buc的處理次序實際上是自頂向下,buc的作者以相反的次序觀察方體的格,頂點方體在底部,而基本方體在頂部。

通過在每次遞迴呼叫前都檢查冰山條件,只要單元的計數不滿足最小支援度,buc就節省大量處理時間。

buc的主要貢獻是分擔劃分開銷的思想

star-cubing:使用動態星樹結構計算冰山立方體

它整合自頂向下和自低向下立方體計算,並利用多維聚集和類apriori剪枝,它在乙個稱為星樹的資料結構上操作,對該資料結構進行無損資料壓縮,從而降低計算時間和記憶體需求量。

star-cubing演算法:在全域性計算次序上,它使用自底向上模式,然而它下面有乙個基於自頂向下模式的子層:利用共享維的概念,這種整合允許演算法在多個維上聚集,而仍然劃分父母分組並裁剪不滿足冰山條件的子女分組。

我們稱公共維為特定子樹的共享維,共享維的引入有利於共享計算。

如果冰山立方體度量是反單調的,則共享維允許類apriori剪枝,也就是說,如果共享維上的聚集值不滿足冰山條件,則沿該共享維向下的所有單元也不可能滿足冰山條件

方體樹:樹的每一層代表乙個維,而每個結點代表乙個屬性值。每個結點有4個字段:屬性值、聚集值、指向第乙個子女的指標和指向第乙個兄妹的指標。方體中的元組逐個插入樹中,一條從根到樹葉結點的路徑代表乙個元組。

如果單個維在屬性值p上的聚集不滿足冰山條件,則在冰山立方體計算中識別這樣的結點沒有意義。這樣的結點p可以用星號替代,使方體樹可以進一步壓縮。如果單個維在p上的聚集不滿足冰山條件,則稱屬性a中的結點p是星結點;否則,稱p為非星結點。使用星結點壓縮的方體樹稱為星樹

外殼片段方法遵循這種半聯機計算策略。它涉及兩個演算法:乙個計算外殼片段立方體,而另乙個用立方體片段處理查詢。其基本思想如下:給定乙個高維資料集,把維劃分成互不相交的維片段,把每個片段轉換成倒排索引表示,然後構造立方體外殼片段,並保持與立方體單元相關聯的倒排索引。使用預計算的立方體外殼片段,可以聯機動態地組裝和計算所需要的資料立方體的方體單元。這可以通過倒排索引上的集合交操作有效地完成。

使用探索立方體計數處理高階查詢:

抽樣立方體:樣本資料上基於olap的挖掘

是一種儲存樣本資料和它們多維聚集的資料立方體結構。它計算置信區間,作為多維查詢的質量度量。給定乙個樣本資料關係r(即基本方體),抽樣立方體cr通常計算樣本均值、樣本標準差和其他針對任務的度量。

置信區間是乙個給定的高概率涵蓋真正總體值估計的值域。

影響置信區間的主要因素:樣本資料的方差和樣本大小

方法1:方法內查詢擴充套件

方法2:方體間查詢擴充套件

排序立方體:top-k查詢的有效計算

top-k查詢根據使用者指定的優選條件,只返回最好的k個結果作為查詢的回答,而不是返回大量不加區分的結果。

**立方體:立方體空間的**挖掘

**立方體的每個單元值都是通過對建立在該單元資料子集上的**模型求值計算的,因此代表對該資料子集行為i的**

多特徵立方體:

可以計算更複雜的查詢,其回答依賴於變化粒度層上多個聚集的分組。

第五章 呈現資料

在指令碼中重定向輸出 建立自己的重定向 列出開啟的檔案描述符 阻止命令輸出 建立臨時檔案 兩種顯示指令碼輸出的方法 linux系統將每個物件當做檔案處理。這裡包括輸入和輸出程序。linux用檔案描述符 file descriptor 來標識每個物件。檔案描述符是乙個非負整數,可以唯一標識會話中開啟的...

資料庫第五章

資料庫的完整性 資料的正確性 是指資料是符合現實世界語義,反映了當前實際狀況的 資料的相容性 是指資料庫同一物件在不同關係表中的資料是符合邏輯的 例如,學生的學號必須唯一 性別只能是男或女 本科學生年齡的取值範圍為14 50的整數 學生所選的課程必須是學校開設的課程,學生所在的院系必須是學校已成立的...

資料結構(第五章)

樹下 第一講一.堆 什麼是堆?在講堆之前,我們先看看什麼是優先佇列。優先佇列 是一種特殊的佇列,從名稱上看,優先,顧名思義,取出的元素是按照一定的優先順序出隊的,而不是元素進入佇列的先後順序。優先佇列的完全二叉樹表示 堆的兩個特性 結構性 用陣列表示的完全二叉樹。有序性 任一結點的關鍵字是其子樹所有...