資料倉儲那點事

2021-07-24 05:35:13 字數 3395 閱讀 5141

首先總結下今天被問到的沒有答上來的問題吧:

1.mysql和sql的區別

mysql**便宜,安裝使用簡便快捷,開源,針對一些對資料庫有特別要求的應用可以通過修改**來實現定向優化

架構:自由選擇儲存引擎。每個表都是乙個檔案,可以選擇合適的儲存引擎。常見的由innodb myisam 等

有開源版,速度最快,最不安全。

ms sql server是windows生態系統的產品。高度整合化,不缺錢但缺it人才的中小企業會偏愛ms sol server。

不開源,速度中等,一般安全

準備下資料倉儲的東西:

參考:1.什麼是資料倉儲?

資料倉儲是決策支援系統和聯機分析應用資料來源的結構化資料環境。資料倉儲研究和解決從資料庫中獲取資訊的問題。資料倉儲的特徵在於面向主題、整合性、穩定性和時變性。用於支援經營管理中的決策支援過程,從廣義上講資料倉儲指儲存大量歷史資料的資料庫。每乙個記錄代表特殊時間點上的乙個資料。

其中,面向主題:運算元據庫的資料組織面向事務處理任務,而資料倉儲中的資料是按照一定的主題域進行組織。主題是指使用者使用資料倉儲進行決策時所關心的重點方面,乙個主題通常與多個操作性資訊系統相關。

整合的:資料倉儲的資料有來自分散的操作型資料,將所需資料從原來的資料中抽取出來,進行加工與提成,統一與綜合之後才能進入資料倉儲;

穩定的:資料倉儲主要是為決策分析提供資料,所涉及的操作主要是資料的查詢

時變性:資料倉儲是隨時間而變化的。傳統 的關係資料庫系統比較適合處理格式化的資料,能夠較好地滿足商業商務處理的需求。穩定的資料以唯讀格式儲存,且不隨時間改變。

2,資料倉儲和資料庫有什麼區別?

資料倉儲是面相分析的,資料庫是面向事務處理的。資料倉儲的資料是基本不變的,而資料庫的資料是由日常的業務產生的,常更新;資料倉儲的資料一般有資料庫的資料經過一定的規則轉換得到的。資料倉儲主要用來分析資料,一般是tb級的資料,比如決策支援系統,資料探勘等。

a).資料庫是面向書屋處理的,資料由日常的業務產生,常更新;資料倉儲是面向主題的,資料**於資料庫或檔案,經過一定的規則轉換得到,用來分析的。

b).資料庫一般是用來儲存當前交易資料,資料倉儲一般儲存的是歷史資料。

c).資料庫的設計一般是符合三正規化的,有最大的精確度和最小冗餘度,有利於資料的插入。資料倉儲的設計一般是星型的,有利於查詢。

3.什麼叫olap?用途是什麼?的形式,形成:立方體「的結構。holap能把molap和rolap兩種結構的優點有機地結合起來,能滿足使用者各種複雜的分析請求。

4.什麼叫維度和量度值?

維度是用來反映業務的一類屬性,這類屬性的集合構成乙個維度。如時間、地理位置或產品。各分析角度(維度)和統計數值型資料(量度)之間的關係。

5.資料倉儲的基本架構是什麼?

資料來源->etl->資料倉儲儲存與管理->olap->bi工具

etl是資料抽取(extract)、清洗(cleaning)、轉換(transform)、裝載(load)的過程。是構建資料倉儲的重要一環,使用者從資料來源抽取出所需的資料,經過資料清洗,最終按照預先定義好的資料倉儲模型,將資料載入到資料倉儲中去。

bi(businessintelligence)即商業智慧型,它是一套完整的解決方案,用來將企業中現有的資料進行有效的整合,快速準確的提供報表並提出決策依據,幫助企業做出明智的業務經營決策

6.什麼叫緩慢維度變化?

緩慢變化維:在實際情況下,維度的屬性並不是靜態的,它會隨著時間的流失發生緩慢的變化。處理方法為:

a)新資訊直接覆蓋舊資訊

b)儲存多條記錄,並新增字段維度行加以區分(用y,n;0,1,2或用時間來區別新舊資訊)

c)儲存多條記錄,並新增字段維度列加以區分

d)另外建表儲存歷史記錄

e)混合模式

7.什麼叫查詢表?為什麼使用替代鍵?

替代鍵可以是資料表內不作為主鍵的其它任何列,只要該鍵對該資料表唯一即可。換句話說,在唯一列內不允許出現資料重複的現象

8.如何實現增量抽取?

主要採用時間戳方式,提供資料抽取和處理的效能。

9.構建企業級資料倉儲五步法:

一、確定主題

即確定資料分析或前端展現的主題(例如某年某月某日某地區的啤酒銷售情況)。主題要體現出某一方面的各分析角度(維度)和統計數值型資料(度量)之間的關係。確定主題時要綜合考慮。

二、確定量度

確定主題後,需要考慮分析的技術指標(例:年銷售額等等)。它們一般為資料值型資料,其中有些量度值不可以彙總,有些可以彙總起來以便為分析者提供有用的資訊。量度是要統計的指標,必須事先選擇恰當,基於不同的量度可以進行複雜關鍵性指標的設計和計算。

三、確定事實資料粒度

確定量度之後,需要考慮該量度的彙總情況和不同維度下量度的聚合情況。例如在業務系統中資料最小記錄到秒,而在將來分析需求時,時間只要精確到天就可以了。在etl處理過程中,按天來彙總資料,這些資料倉儲中量度的粒度就是「天「。如果不能確認將來的分析需求中是否要精確到秒,那麼,我們要遵循「最小粒度原則「,在資料倉儲中的事實表中保留每一秒的資料,從而在後續建立多維分析模型的時候,會對資料提前進行彙總,保障產生分析結果的效率。」」」」

四、確定維度

維度是分析的各個角度。例:我們希望按照時間,或者按照地區,或者按照產品進行分析。那麼這裡的時間,地區,產品就是相應的維度。基於不同的維度,可以看到各個量度彙總的情況,也可以基於所有的維度進行交叉分析。

建立維度表時要充分使用**鍵。**鍵是資料值型的id號碼(每張表的第乙個字段),它唯一標識了第一維度成員。在聚合時,數值型字段的匹配和比較,join效率高。同時**鍵在緩慢變化維中,起到了對新資料與歷史資料的標識作用。

五、建立事實表

10.退化維怎麼理解?退化維有什麼作用?

一般來說事實表中的外來鍵都對應乙個維表,維的資訊主要存放在維表中。但是退化維僅僅是事實表中的一列,這個維的相關資訊都在這一列中,沒有維表與之相關聯。比如,發票號,序列號等等。

退化維具有普通維的各種操作,比如上捲、切片、切塊等。如果存在退化維,那麼etl的過程將會變得容易。它可以讓group by等操作變得更快

切面、切塊、向上鑽取、向下鑽取等

鑽取roll up是在某一維上將低層次的細節資料概括到高層次的彙總資料,或者減少維數;是指自動生成彙總行的分析方法。通過嚮導的方式,使用者可以定義分析因素的彙總行,例如對於各地區各年度的銷售情況,可以生成地區與年度的合計行,也可以生成地區或者年度的合計行。

drill down則相反,它從彙總資料深入到細節資料進行觀察或增加新維。例如,使用者分析「各地區、城市的銷售情況」時,可以對某乙個城市的銷售額細分為各個年度的銷售額,對某一年度的銷售額,可以繼續細分為各個季度的銷售額。通過鑽取的功能,使使用者對資料能更深入了解,更容易發現問題,做出正確的決策。

11. 增量抽取方法

參照資料抽取包括全量抽取和增量抽取兩種方法。其中增量抽取只抽取自上次抽取以來資料庫中要抽取的表中新增或修改的資料。

a)觸發器方式

b)時間戳方式

c)全表刪除插入方式

d)全表對比方式

e)日誌表方式

資料倉儲的那些事

一,定義 1,資料倉儲是乙個面向主題的,整合的,非易失的,隨時間變化的用來支援管理人員決策的資料集合。面向主題 乙個資料倉儲的設計總是基於主題域去進行設計的,比如說是乙個生產商的主題域就分為產品,訂單,銷售商和材料單等等,那麼資料倉儲就會基於這些主題去進行資料表的分層與分類設計 整合的 資料倉儲的資...

資料倉儲 資料倉儲部署

1 首先用下面的語句查詢是否有要建立的表空間 hospdw tab 和 hospdw idx 如果沒有,則把d database zyhip改為對應的路徑,有的話直接建立使用者 select tablespace name,file name,round bytes 1024 1024 0 size...

資料倉儲,什麼是資料倉儲?

資料倉儲,英文名稱為data warehouse,可簡寫為dw或dwh。資料倉儲是為企業所有級別的決策制定過程提供支援的所有型別資料的戰略集合。它是單個資料儲存,出於分析性報告和決策支援的目的而建立。為企業提供需要業務智慧型來指導業務流程改進和監視時間 成本 質量和控制。資料倉儲是決策支援系統 ds...