資料架構 作業環境

2021-10-23 18:48:43 字數 1547 閱讀 2585

計算機資訊技術的發展時間雖然不短,但是相較於其它行業卻缺乏歷史的沉澱。sdlc(系統開發生命週期)則是計算機資訊技術發展中結構化革命的重要產品之一。它規定了應用程式的開發需要經過需求——>分析——>設計——>程式設計——>測試——>整合的開發模式。一下是計算機資訊技術的時間軸:

資料模型僅僅使圍繞著組織中粒度化的細節資料來塑造的,當允許彙總資料和合計資料進入模型時,會出現以下情況:

資料模型最高層次的抽象時e-r圖,e-r圖反映了資料在有意義的最高層級上的抽象。資料模型的下一層集是dis(資料項集)。e-r圖中確定的每乙個實體都有其自己的dis。dis的基本構造是乙個方框,方框中是一些相互存在緊密關聯關係或從屬關係的資料要素。各個資料分組之間不同的連線也有一定含義。dis說明了實體的鍵、屬性和關係。當建立了dis之後,就要對所建立的dis進行物理設計,dis中的每乙個資料分組都會產生乙個單獨的資料庫設計,物理資料庫設計要考慮資料的物理結構、資料的物理特徵、鍵的規範、索引的規範等。資料庫設計的要素包括鍵、屬性、記錄和索引。e-r圖、dis和物理資料庫設計則對應著資料模型的不同層次,dis是e-r圖中細節的說明,物理資料庫設計則是dis的細節說明。 資料模型有多種不同型別,其中包括作業資料模型和資料倉儲資料模型。作業資料模型是一種面向企業日常生產作業的資料模型,而資料倉儲模型是一種基於組織資訊需求的資料模型。

元資料的經典定義是關於資料的資料,元資料是定義作業系統、資料庫管理系統和應用程式中資料的重要特徵的描述性資料。資料庫的典型元資料報括以下幾項:

元資料一般存放在儲存庫當中,儲存庫的種類有很多,有些儲存庫是資料庫的擴充套件,由dbms進行管理。另外儲存庫還有主動式和被動式,主動式是構成整個開發過程的乙個組成部分,而被動式在開發過程中並不以互動方式使用。元資料的用處有很多,組織中有很多群體會用到元資料,元資料的一些主要使用者包括開發群體、資料管理群體和終端使用者群體。元資料還可以用於確定乙個查詢是否有必要執行,元資料可以簡化操作,使終端使用者 避免執行一些不必要的操作。;元資料的另一種使用者使作為確定如何使多個系統協調的基礎。在分析過程中,元資料可以作為理解資料譜系的基礎。元資料還可以對新的待建系統和已有系統作對比。

資料治理是解決大型企業中資料混亂和資料錯誤的方法。資料治理通常從某個部門開始,隨著資料的改良,最後擴充套件到整個企業。資料治理的原因主要有外部驅動和內部驅動兩方面,外部驅動的因素包括:薩班斯-奧克斯利法案、巴塞爾新資本協議和健康保險流通與責任法案等;內部驅動因素則是混亂的資料會做出錯誤的企業決策。資料治理的本質是修復損壞的資料,為了修復資料,首先要知道損壞的原因,一般導致資料損壞的原因如下:

資料修復一般需要完成以下三個步驟:

完成上述所有工作再對以往產生的資料進行複查,對已經寫入但需要處理的資料進行修復。 資料治理是專門應用於組織粒度化詳細資料的,修復資料的起點則是企業粒度化的詳細工具。另乙個資料治理的步驟就是為需要進行的變更編制文件,企業中的所有人都可以閱讀編制文件以獲取需求標準。在組織架構上,企業應該確認sme(主體域問題專家)和ds(資料主管)分別確認需求正確性和資料正確性。

資料治理是一項持續性的專項治理工作,需要管理、支援等多方面配合協調,因此資料治理需要企業頂層推進。

大資料 spark作業執行架構原理

1.啟動spark集群 start all.sh 啟動spark中的master和worker節點 2.worker程序啟動起來之後向master傳送註冊資訊 worker 是基於 akka的事件驅動模型 3.worker 註冊成功之後不斷的向master傳送心跳包 監聽主節點是否存在 5.mast...

聊聊大資料環境下的資料庫架構

隨著資料的快速增長,分表,分庫,memcache,redis,mongodb,hadoop,bigtable等,各種解決方案呼之欲出。經過測試,在mysql中,無論如何加索引,資料超過百w時,查詢起來耗時很明顯。因此mysql分表分庫 memcache redis也不失是乙個完美解決方案。由於red...

LVS 生產環境架構詳解

lvs 是 linux virtual server 的簡寫,意即 linux 虛擬伺服器,是乙個開源的負載均衡流量排程器。lvs 集群採用 ip 負載均衡技術和基於內容請求分發技術,將使用者請求按照一定策略分發到後端的 server 上,從而將一組伺服器構成乙個高效能的 高可用的虛擬伺服器。在特定...