資料倉儲(OLAP OLTP)與資料探勘

2021-08-25 02:33:34 字數 2416 閱讀 1209

一、挖掘資料存在問題:

1、把來自各個資料來源的資料匯集到乙個中心倉庫中,即資料倉儲。資料倉儲位於乙個單獨的節點上,使用同一的模式從多個資料來源收集資料,給使用者提供乙個單獨的、統一的資料介面,目的是能在不同的資料上高效執行查詢。

2、分析收集到的資料發現可以成為商務決策基礎的資訊或知識。

資料探勘:目標是在大量資料中檢測出各類型別的模式,是對具有類似目標的各種型別的統計技術的補充。

資料探勘將人工智慧研究者和統計家發明的知識發現技術結合起來,同時採用高效的實現技術使其能夠用於超大型資料庫。

二、資料庫應用

1、事務處理:用來記錄有關事務的資訊的系統,如公司的產品銷售記錄。

2、決策支援系統:目標是從事務處理系統儲存的細節資訊中提取出高層次的資訊,並利用這些高層次資訊來做出各種決策。幫助經理決定商店該採購什麼產品,工廠生產什麼產品等。有兩種形式:olap和資料探勘系統。

三、資料倉儲(data warehouse)

問題:企業決策者需要訪問來自多個資料來源的資訊,在各個資料來源上建立查詢既麻煩又低效。而且資料來源可能只儲存當前資料,而決策者可能需要訪問歷史資料

特徵:物件導向、資料整合、隨時間而變化,資料不易丟失。

四、資料倉儲成分

1、何時和如何收集資料:在收集資料的源驅動架構中,資料來源連續地(發生事務處理時)或週期性

的傳輸新資訊。在目標驅動架構中,資料倉儲週期地給資料來源傳送需要新資料的請求。

2、使用何種模式:單獨構造的各個資料來源很可能具有不同模式。資料倉儲的部分任務就是進行模式整合,並將資料轉化成整合後的模式後在進行儲存。儲存在資料倉儲中的資料可看作是資料來源資料的乙個物化檢視,不僅僅是資料來源的乙個拷貝。

3、對資料的糾正和預處理任務稱作資料清理(data cleansing)。資料來源經常傳送大量具有略微不一致的資料,這種不一致性可以糾正。這種任務所需要的資料大致匹配稱為模糊查詢(fuzzy lookup)。

從多個資料來源收集的位址列表可能具有重複,需要在合併-清除操作(merge-purge operation)中消除這些重複(去重(deduplication))。一所住宅中多個人的記錄可以組合為一組,這樣每所住宅只須投遞一封郵件,此操作稱住宅操作(householding)。資料型別的轉換

4、如何傳播更新

資料來源中關係的更新必須傳播到資料倉儲。如果資料倉儲中的關係與資料來源中的完全一樣,那麼傳播就直接了當了。如果不一致,更新傳播問題基本上就是試圖維護問題。

5、彙總何種資料

將資料存入資料倉儲所涉及的不同步驟稱為抽取(extract)、轉化(transform)和載入(load),或稱etl任務;

抽取:從源收集資料;載入:把資料裝入資料倉儲中

6、資料倉儲與異種資料庫整合

7、資料倉儲與運算元據庫系統

運算元據庫系統主要任務:聯機事務處理oltp

資料倉儲主要任務:聯機分析處理olap

區別:使用者和系統的面向性:顧客 vs  市場

資料內容:當前的,詳細的資料    vs  歷史的、彙總的資料

資料庫設計實體-聯絡模型(er)和面向應用的資料庫設計  vs 星型/雪花模型和面向主題的資料庫設計

檢視:當前的、企業內部的資料 vs 經過演化的、整合的資料

訪問模式:事物操作 vs 唯讀查詢(但很多是複雜的查詢)

8、為什麼需要乙個分離的資料倉儲

提高兩個系統的效能:dbms是為oltp設計的:儲存方式,索引,併發控制,恢復;資料倉儲是為olap設計:複雜的olap查詢,多維檢視,彙總。

不同的功能和不同的資料:歷史資料:決策支援需要歷史資料,而這些資料在運算元據庫中一般不會去維護;資料彙總:決策支援需要將來自異種源的資料統一(如聚集和彙總);資料質量:不同的源使用不一致的資料表示、編碼和格式,對這些資料進行有效地分析需要將它們轉化後進行整合。

五、資料探勘:泛指半自動地分析大型資料庫以發現有用模式的處理過程。試圖從資料中發現規則和模式。與機器學習和統計的不同在於:它處理主要儲存在磁碟上的大量資料,即資料庫中的知識發現(kdd,knowledge discovery in database)。

1、從資料庫中發現的某些型別的知識可以用乙個規則集來表示,具有支援度和置信度。

關聯(association)和聚類(cluster)是描述性模式(descreptive pattern)的乙個例子。

關聯規則識別經常同時出現的項,相互關聯找出與期望關聯等級的偏離。

支援度:度量的是同時滿足規則前提喝結論的個體總數所佔的比例。兩者共同發生的概率。

置信度:度量的是為真時結論為真的頻率。在另一條件下某事件的概率。

2、聚類:指在給定資料中找到點的簇的問題。可以從不**的距離度量中形式化而來。將相似的點一起劃分到乙個單獨的集合中去。距離最小

凝聚聚類演算法:構造小的聚類開始,然後建立更高等級

**聚類:首先建立層次聚類的更高等級,之後將每個聚類結果細分為更低等級的聚類。

3、其他型別的資料探勘

文字挖掘:歷史記錄

資料視覺化:圖形

資料倉儲 資料倉儲部署

1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...

資料倉儲,什麼是資料倉儲?

資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲是為企業所有級別的決策制定過程提供支援的所有型別資料的戰略集合。它是單個資料儲存,出於分析性報告和決策支援的目的而建立。為企業提供需要業務智慧型來指導業務流程改進和監視時間 成本 質量和控制。資料倉儲是決策支援系統 ds...

資料倉儲和資料倉儲分層

資料倉儲 data warehouse 可簡寫為dw或dwh。資料倉儲,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合。它是單個資料儲存,出於分析性報告和決策支援目的而建立。為需要業務智慧型的企業,提供指導業務流程改進 監視時間 成本 質量以及控制。1 問題簡單化,將乙個複雜的問題分...