資料倉儲專業術語

2021-06-25 21:26:55 字數 2662 閱讀 1777

資料倉儲是商業智慧型的基礎,許多基本報表可以由此生成,但它更大的用處是作為進一步分析的資料來源。所謂資料倉儲(dw)就是面向主題的、整合的、穩定的、不同時間的資料集合,用以支援經營管理中的決策制定過程。多維分析和資料探勘是最常聽到的例子,資料倉儲能供給它們所需要的、整齊一致的資料。

資料探勘(dm)是一種決策支援過程,它主要基於ai、機器學習、統計學等技術,高度自動化地分析企業原有的資料,做出歸納性的推理,從中挖掘出潛在的模式,**客戶的行為,幫助企業的決策者調整市場策略,減少風險,做出正確的決策。

資料倉儲:資料倉儲是乙個支援管理決策的資料集合。資料是面向主題的、整合的、不易丟失的並且是時間變數。資料倉儲是所有操作環境和外部資料來源的快照集合。它並不需要非常精確,因為它必須在特定的時間基礎上從操作環境中提取出來。

資料集市:資料倉儲只限於單個主題的區域,例如顧客、部門、地點等。資料集市在從資料倉儲獲取資料時可以依賴於資料倉儲,或者當它們從作業系統中獲取資料時就不依賴於資料倉儲。

事實:事實是資料倉儲中的資訊單元,也是多維空間中的乙個單元,受分析單元的限制。事實儲存於一張表中(當使用關聯式資料庫時)或者是多維資料庫中的乙個單元。每個事實包括關於事實(銷售額,銷售量,成本,毛利,毛利率等)的基本資訊,並且與維度相關。在某些情況下,當所有的必要資訊都儲存於維度中時,單純的事實出現就是對於資料倉儲足夠的資訊。我們稍後討論有關缺無事實的情況。

維度:維度是用來反映業務的一類屬性,這類屬性的集合構成乙個維度。例如,某個地理維度可能包括國家、地區、省以及城市的級別。乙個時間維度可能包括年、季、月、周、日的級別。乙個立方體資料結構(cube)是由很多資料維(dimension,簡稱「維」)組成,每一維都表示某一類的資料。維就是相同類資料的集合。資料維里的資料都限制在某一問題所界定的領域之內。在microsoft olap service裡的立方體資料結構可以包含1-64個資料維。在立方體結構(cube)裡至少要包含乙個資料維,在乙個資料維(dimension)裡又至少包含乙個層次(hierarchy),而乙個層次又至少要包含乙個級別(level)。在每乙個級別裡,可以擁有多個成員(member)。在事實表關鍵字與資料維成員交叉的地方,每乙個成員至少有乙個資料值出現在該位置上。

級別:維度層次結構的乙個元素。級別描述了資料的層次結構,從資料的最高(彙總程度最大)級別直到最低(最詳細)級別(如大分類-中分類-小分類-細分類)。級別僅存在於維度內。級別基於維度表中的列或維度中的成員屬性。

資料清洗:對資料倉儲系統無用的或者不符合資料格式規範的資料稱之為髒資料。清洗的過程就是清除髒資料的過程。

資料採集:資料倉儲系統中後端處理的一部分。資料採集過程是指從業務系統中收集與資料倉儲各指標有關的資料。

資料轉換:解釋業務資料並修改其內容,使之符合資料倉儲資料格式規範,並放入資料倉儲的資料儲存介質中。資料轉換包括資料儲存格式的轉換以及資料表示符的轉換(如產品**到產品名稱的轉換)。

常見的olap操作  

1)上鑽

又稱上鑽,通過乙個維從低層次向較高的層次攀公升,從而得到資料立方體的聚合資料。

如:在產品維度上,由產品向小類上捲,可得到小類的聚合資料;再由小類向大類上捲,可得到大類層次的聚合資料。

2)下鑽

下鑽是上捲的逆操作,它是由不太詳細的資料到更詳細的資料。如:沿著時間維度,從年到季度,再到月下鑽,可以得到更加詳細的資料。

3)切片和切塊

切片操作在給定的資料多維模型的乙個維度上進行選擇,導致乙個子方。比如:可以對時間維度按"時間=2023年1月"進行切片,得到乙個含產品和門店兩個緯度的片狀圖。

切塊操作通過對兩個維度或多個維度進行選擇,定義子方。如:可按"時間=2023年1月"and"城市=上海"進行切塊。

4)旋轉

旋轉是一種目視操作,它轉動資料的視角,提供資料的替代表示。

資料探勘:在資料倉儲的資料中發現新資訊的過程被稱為資料探勘,這些新資訊不會從作業系統中獲得。

切片:一種用來在資料倉儲中將乙個維度中的分析空間限制為資料子集的技術。

切塊:一種用來在資料倉儲中將多個維度中的分析空間限制為資料子集的技術。

星型模式:是資料倉儲應用程式的最佳設計模式。它的命名是因其在物理上表現為中心實體,典型內容包括指標資料、輻射資料,通常是有助於瀏覽和聚集指標資料的維度。星形圖模型得到的結果常常是查詢式資料結構,能夠為快速響應使用者的查詢要求提供最優的資料結構。星形圖還常常產生一種包含維度資料和指標資料的兩層模型。

雪花模式:指一種擴充套件的星形圖。星形圖通常生成乙個兩層結構,即只有維度和指標,雪花圖生成了附加層。實際資料倉儲系統建設過程中,通常只擴充套件三層:維度(維度實體)、指標(指標實體)和相關的描述資料(類目細節實體)超過三層的雪花圖模型在資料倉儲系統中應該避免。因為它們開始像更傾向於支援oltp 應用程式的規格化結構,而不是為資料倉儲和olap應用程式而優化的非格式化結構。

粒度:粒度將直接決定所構建倉庫系統能夠提供決策支援的細節級別。粒度越高表示倉庫中的資料較粗,反之,較細。粒度是與具體指標相關的,具體表現在描述此指標的某些可分層次維的維值上。例如,時間維度,時間可以分成年、季、月、周、日等。

資料倉儲模型中所儲存的資料的粒度將對資訊系統的多方面產生影響。事實表中以各種維度的什麼層次作為最細粒度,將決定儲存的資料能否滿足資訊分析的功能需求,而粒度的層次劃分、以及聚合表中粒度的選擇將直接影響查詢的響應時間。

度量值:在多維資料集中,度量值是一組值,這些值基於多維資料集的事實資料表中的一 列,而且通常為數字。此外,度量值是所分析的多維資料集的中心值。即,度量值是終端使用者瀏覽多維資料集時重點檢視的數字資料(如銷售、毛利、成本)。所選擇的度量值取決於終端使用者所請求的資訊型別。

NLP專業術語

hyper parameters 在訓練模型時,有些引數是需要手動設定的,每個引數有乙個可選的範圍或者列表可供訓練,可以呼叫sklearn的gridsearchcv函式來自動統計搜尋。development set 在 中也簡寫成dev。一般在訓練模型時需要用到交叉驗證,這部分用來交叉驗證訓練的樣本...

oracle專業術語

entity實體 data 資料 attribute屬性 attribute set實體集 database資料庫 database management system,dbsm資料庫管理系統 information system 資訊系統 relational database managemen...

EDA專業術語

eda 電子設計自動化 eda,electronic design automation hdl 硬體描述語言 hdl,hardware description language vlsi 超大規模積體電路 vlsi,very large scale integration dfm rule 可製造...