資料探勘概念與技術筆記

2022-01-29 02:05:55 字數 3368 閱讀 7906

1. 什麼是資料探勘?

資料探勘是從大量資料中提取或「挖掘」知識,很多人也把資料探勘視作「資料庫中的知識發現」(kdd)。

資料探勘的步驟包括:

2. 什麼是資料倉儲?

資料倉儲是乙個從多個資料來源收集的資訊儲存,存放在乙個一致的模式下,並通常駐留在單個站點。通俗講,資料倉儲是通過資料清理、資料變換、資料整合、資料裝入和定期資料重新整理構造。通常,資料倉儲用多維資料庫結構建模。資料倉儲提供聯機分析處理(olap)工具,用於各種粒度的多維資料分析,有利於有效的資料分析。構造資料倉儲涉及資料清理和資料整合,是資料探勘的乙個重要的預處理步驟。

資料倉儲是乙個面向主題的,整合的,時變的,非易失的資料集合。

面向主題:資料倉儲圍繞一些主題,如顧客、**商、產品和銷售組織。資料倉儲關注決策者的資料建模與分析,而不是構造組織機構的日常操作和事務處理。因此,資料倉儲排除對於決策無用的資料,提供特定主題的簡明檢視。

整合的:通常,構造資料倉儲是將多個異種資料來源,如關聯式資料庫、一般檔案和聯機事務處理記錄,整合在一起。使用資料清理和資料整合技術,確保命名約定、編碼結構、屬性度量的一致性。

時變的:資料儲存從歷史的角度(例如,過去 5-10 年)提供資訊。資料倉儲中的關鍵結構,隱式或顯式地包含時間元素。

非易失的:資料倉儲總是物理地分離存放資料;這些資料源於操作環境下的應用資料。由於這種分離,資料倉儲不需要事務處理、恢復和並行控制機制。通常,它只需要兩種資料訪問:資料的初始化裝入和資料訪問。

既然運算元據庫存放了大量資料,為什麼不直接在這種資料庫上進行聯機分析處理,而是另外花費時間和資源去構造乙個分離的資料倉儲?

分離的主要原因是為了提高兩個系統的效能,運算元據庫是為已知的任務和負載設計的,如使用主關鍵字索引和雜湊,檢索特定的記錄,和優化「罐裝的」查詢。另一方面,資料倉儲的查詢通常是複雜的,涉及大量資料在彙總級的計算,可能需要特殊的資料組織、訪問方法和基於多維檢視的實現方法。在運算元據庫上處理 olap 查詢,可能會大大降低操作任務的效能。

此外,運算元據庫支援多事務的並行處理,需要加鎖和日誌等並行控制和恢復機制,以確保一致性和事務的強健性。通常,olap 查詢只需要對資料記錄進行唯讀訪問,以進行彙總和聚集。如果將並行控制和恢復機制用於這種 olap 操作,就會危害並行事務的執行,從而大大降低 oltp 系統的吞吐量。

最後,資料倉儲與運算元據庫分離是由於這兩種系統中資料的結構、內容和用法都不相同。決策支援需要歷史資料,而運算元據庫一般不維護歷史資料。在這種情況下,運算元據庫中的資料儘管很豐富,但對於決策,常常還是遠遠不夠的。決策支援需要將來自異種源的資料統一(如,聚集和彙總),產生高質量的、純淨的和整合的資料。相比之下,運算元據庫只維護詳細的原始資料(如事務),這些資料在進行分析之前需要統一。由於兩個系統提供很不相同的功能,需要不同型別的資料,因此需要維護分離的資料庫。然而,許多關聯式資料庫管理系統賣主正開始優化這種系統,使之支援 olap 查詢。隨著這一趨勢的繼續,oltp 和 olap 系統之間的分離可望消失。

3. 什麼是資料集市

資料集市蒐集了整個組織的主題資訊,因此,它是企業範圍的。另一方面,資料集市是資料倉儲的乙個部門子集,它聚焦在選定的主題上,是部門範圍的。

4. oltp和olap區別

資料處理大致可以分成兩大類:聯機事務處理oltp(on-line transaction processing)、聯機分析處理olap(on-line analytical processing)。oltp是傳統的關係型資料庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。olap是資料倉儲系統的主要應用,支援複雜的分析操作,側重決策支援,並且提供直觀易懂的查詢結果。 

oltp和olap的區別概述如下:

使用者和系統的面向性:oltp 是面向顧客的,用於辦事員、客戶、和資訊科技專業人員的事務和查詢處理。olap 是面向市場的,用於知識工人(包括經理、主管、和分析人員)的資料分析。

資料內容:oltp 系統管理當前資料。通常,這種資料太瑣碎,難以方便地用於決策。olap 系統管理大量歷史資料,提供彙總和聚集機制,並在不同的粒度級別上儲存和管理資訊。這些特點使得資料容易用於見多識廣的決策。

資料庫設計:通常,oltp 系統採用實體-聯絡(er)模型和面向應用的資料庫設計。而 olap 系統通常採用星形或雪花模型(和面向主題的資料庫設計。

檢視:oltp 系統主要關注乙個企業或部門內部的當前資料,而不涉及歷史資料或不同組織的資料。相比之下,由於組織的變化,olap 系統常常跨越資料庫模式的多個版本。olap 系統也處理來自不同組織的資訊,由多個資料儲存整合的資訊。由於資料量巨大,olap 資料也存放在多個儲存介質上。

訪問模式:oltp 系統的訪問主要由短的、原子事務組成。這種系統需要並行控制和恢復機制。然而,對 olap 系統的訪問大部分是唯讀操作(由於大部分資料倉儲存放歷史資料,而不是當前資料),儘管許多可能是複雜的查詢。

多維資料模型上的olap操作包含:上捲、下鑽、切片和切塊(切片在資料方的乙個維上進行選擇,切塊是在兩個或多維選擇)、轉軸等。

5. 多維資料模型

資料倉儲和 olap 工具基於 多維資料模型,該模型將資料看作資料方形式。資料方允許以多維對資料建模和觀察,它由維和事實定義。一般地,是透視或關於乙個組織想要記錄的實體。例如,建立乙個資料倉儲 sales ,記錄商店的銷售,涉及維 time, item, branch , 和 location 。這些維使得商店能夠記錄商品的月銷售,銷售商品的分店和地點。每乙個維都有乙個表與之相關聯。該錶稱為維表,它進一步描述維。例如, item 的維表可以包含屬性 item_name, branch, 和 type 。維表可以由使用者或專家設定,或者根據資料分布自動產生和調整。

通常,多維資料模型圍繞中心主題(例如, sales )組織。該主題用事實表表示。 事實是數值度量的。例如,資料倉儲 sales 的事實包括 dollars_sold , units_sold 和 amount_budgeted 。事實表包括事實的名稱或度量,以及每個相關維表的關鍵字。

6. 元資料

元資料是關於資料的資料。在資料倉儲中,元資料是定義倉庫物件的資料。對於給定資料倉儲的資料名和定義,建立元資料。其它元資料報括對提取資料新增的時間標籤、提取資料的源、被資料清理或整合處理新增的字段等。

資料探勘概念與技術

在現實社會中的資料往往存在雜訊資料 缺失值和不一致資料的問題。為了提高資料探勘工作的效率和準確性,需要使用資料清理 資料整合 資料歸約和資料變換等方法對資料進行預處理操作。資料質量的三個要素是 準確性 完整性和一致性。資料清理試圖填充缺失值 光滑雜訊並識別離群點 糾正資料中的不一致。忽略元組。該方法...

資料探勘概念與技術 文字挖掘

1 文字檢索的基本度量 color red 準確率和召回率 color url 2 文字檢索方法 color red 向量空間模型 color url 3 文字索引技術 color red 1 倒排索引 color 一種索引結構,維持兩個雜湊索引表document table 文件表 和term t...

資料探勘概念與技術 讀書筆記(1)

原書第三版 jiawei han micheline kamber jian pei 著 解決 資料豐富,但資訊貧乏 的問題。資料的 式增長,廣泛可用,巨大數量 資料時代 需要功能強大和通用的工具,從海量資料中發現有價值的資訊。從資料中挖掘知識。資料倉儲 事務資料 其他型別的資料 類 概念描述 特徵...