大資料時代入門《一》 資料庫與資料倉儲

2021-06-29 00:12:19 字數 2149 閱讀 9103

文\周凌宇

大資料時代入門一資料庫與資料倉儲

資料庫和資料倉儲oltp與olap

資料倉儲與olap用在哪

資料倉儲與大資料

最深入的了解

oltp:on-line transaction processing聯機事務處理系統

olap:on-line analytical processing聯機分析處理系統

1. 它們代表了什麼?

從我們過去的接觸中可以很快感知到資料庫所對應的是oltp,而資料倉儲對應的是olap。

資料庫中最常用的名詞是「事務」,所有的操作都是面向事務的。

資料倉儲(data warehouse)是乙個面向主題的(subject oriented)、整合的(integrate)、相對穩定的(non-volatile)、反映歷史變化(time variant)的資料集合,用於支援管理決策。

2. 他們分別能做什麼?

資料庫技術可以實現資料的儲存和管理資料,同時也是使用者所需要的各種資料管理的方式。我們可以看到資料庫可以管理資訊系統、辦公自動化系統等等系統必不可少的核心部分。因為現在技術一切資料需要管理。

資料倉儲建立目的是為了分析性報告和決策支援。它為企業提供需要業務智慧型來指導業務流程改進和監視時間、成本、質量和控制。總的來說,資料倉儲可以分析市場提供有效的提供企業決策。

資料倉儲的出現,並不是要取代資料庫。並且,一般來說資料倉儲就是由大量資料庫資料構成的。資料倉儲是為了解決資料庫所不能解決的問題,資料庫能夠實現對資料的操作但不能分析資料。資料倉儲通過對資料庫資料集合的分析實現決策。

資料倉儲建設是乙個工程,是乙個過程,而不是一種可以購買的產品。企業資料處理方式是以聯機事務處理形式資訊,並利用資訊進行決策;在資訊應用過程中管理資訊。

資料庫資料倉儲

面向事務的設計

面向主題設計的

一般是歷史資料

盡量避免冗餘

有意引入冗餘

為捕獲資料而設計

為分析資料而設計

理論是晦澀的,所以我們應當用具象的方式向大家展示。

1. 沃爾瑪的啤酒與尿布

世界零售巨頭沃爾瑪發現:尿布與啤酒這兩種風馬牛不相及的商品擺在一起可以使尿布和啤酒的銷量大幅增加。原來,美國的婦女通常在家照顧孩子,所以她們經常會囑咐丈夫在下班回家的路上為孩子買尿布,而丈夫在買尿布的同時又會順手購買自己愛喝的啤酒。

相信很多人聽過這個故事,最早,我們把它作為市場經濟的乙個典範。然而沃爾瑪是如何從浩如煙海卻又雜亂無章的資料中,發現啤酒和尿布銷售之間的聯絡呢?

沃爾瑪通過大量資料收集建立資料倉儲而分析出的結果,對此結果進行決策,實際上,這是乙個典型的資料倉儲應用案例。

2. **的定製推送

在中國,我們最常見的資料倉儲應用是什麼?在瀏覽網頁時無處不在的廣告推送。我們能發現推送的東西都是我們需要的,或是最近瀏覽的東西,這樣的針對個人的精確型推送顯然比無特點的廣告要有效的多。

於是我們聽到了乙個詞——資料探勘。似乎在一夜間就變成了市場最緊缺的人才。那麼這裡說的資料探勘就是對資料倉儲進行的挖掘。

3. 法國的電信資料倉儲

法國電信通過建立資料倉儲,收集資料進行分析,全面分析客戶的使用行為,分析市場,有效建立欺詐模式庫、及時檢測通話行為發生的突然變化、建立預警系統。

資料探勘

資料探勘這一術語含義廣泛,指代一些通常由軟體實現的機制,目的是從巨量資料中提取出資訊。資料探勘往往又被稱作演算法。

資料不是資訊,而是有待理解的原材料。但有一件事是確定無疑的:當nsa為了從其海量資料中「挖掘」出資訊,耗資數十億改善新手段時,它正受益於陡然降落的計算機儲存和處理**。

以上引用:

量級比較

名稱資料量級

資料庫mb

資料倉儲

gb大資料

tb

《資料倉儲》[美] 蔭蒙(inmon,w.h) 著

《資料探勘:概念、模型、方法和演算法》[美]坎塔爾季奇(mehmed kantardzic) 著

《資料探勘 概念與技術(data mining concepts and techniques third edition)》[美] jiawei han,[美] micheling kamber,[美] jian pei,等 著

MySQL資料庫(一) 資料庫基礎

資料庫介紹 db database 資料庫 dbms database management system 資料庫管理系統 dba 資料庫管理員 database administrator 資料 描述事物的符號記錄稱為記錄 數字 文字 影象 聲音 表 不同的組織記錄在一起形成表 資料庫 資料的集合...

大資料時代的資料特點與大資料時代處理資料理念的改變

1 大資料時代的資料特點 4v 1.1 規模性 volume 即大資料具有相當的規模,其資料量非常巨大。資料的數量級別可劃分為b kb mb gb tb pb eb zb 等,而資料的數量級別為pb 級別的才能稱得上是大資料。1.2 多樣性 variety 即大資料的資料型別呈多樣性。資料型別繁多,...

大資料資料庫選型 NoSQL資料庫入門

大資料處理,涉及到從資料獲取到資料儲存 資料計算的諸多環節,各個環節需要解決的問題不同,相關崗位要求的技能也不同。在資料儲存階段,對資料庫選型是非常重要的一項工作。今天的大資料資料庫培訓分享,我們就來聊聊nosql資料庫入門。關於nosql資料庫,很多人剛開始學習容易誤會,事實上nosql not ...