大資料基礎知識

2021-08-05 20:27:04 字數 2035 閱讀 3162

一種規模大到在獲取、儲存

、管理、分析方面大大超出了傳統資料庫

軟體工具能力範圍的資料集合,具有海量的資料規模、快速的資料流轉、多樣的資料型別和價值密度低四大特徵。大資料需要特殊的技術,以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術,包括大規模並行處理

(mpp)資料庫

、資料探勘、分布式檔案系統

、分布式資料庫

、雲計算平台

、網際網路和可擴充套件的儲存系統。

按順序給出所有單位:bit、byte、kb、mb、gb、tb、pb、eb、zb、yb、bb、nb、db。(進率2^10)

批處理計算 (  mapreduce,spark):最適合於完成大資料批處理的計算模式是mapreduce,首先,mapreduce對具有簡單資料關係、易於劃分的大規模資料採用「分而治之」的並行處理思想;然後將大量重複的資料記錄處理過程總結成map和reduce兩個抽象的操作;最後mapreduce提供了乙個統一的平行計算框架,把平行計算所涉及到的諸多系統層細節都交給計算框架去完成,以此大大簡化了程式設計師進行並行化程式設計的負擔。

流式計算   (scribe ,flume,storm,s4,sparkstreaming)流式計算是一種高實時性的計算模式,需要對一定時間視窗內應用系統產生的新資料完成實時的計算處理,避免造成資料堆積和丟失。

迭代計算 ( haloop ,imapreduce,twister,spark)為了克服hadoop mapreduce難以支援迭代計算的缺陷,工業界和學術界對hadoop mapreduce進行了不少改進研究。haloop把迭代控制放到mapreduce作業執行的框架內部,並通過迴圈敏感的排程器保證前次迭代的reduce輸出和本次迭代的map輸入資料在同一臺物理機上,以減少迭代間的資料傳輸開銷;

互動式計算

圖計算    (pregel,powergrapg,graphx)

記憶體計算 (dremel,hana,redis)

六、大資料的工作流程

1、採集與預處理

從資料來源採集的資料,需要通過資料融合、資料整合、資料整合,生成新的資料集,供後續查詢、分析、處理提供統一的資料檢視

2、儲存管理

分布式檔案系統

分布式資料庫(newsql、nosql)

3、計算模式

包括批處理、互動式處理、流式計算、迭代計算、圖計算、記憶體計算

4、分析與挖掘

5、視覺化處理

七、cdh簡介

cdh首先是100%開源,基於apache協議。基於apache 

hadoop

和相關projiect開發。可以做批量處理,互動式sql查詢和及時查詢,基於角色的許可權控制。在企業中使用最廣的

hadoop

分發版本。

八、分布式架構設計cap的工作原理

● 一致性(c):在分布式系統中的所有資料備份,在同一時刻是否同樣的值。(等同於所有節點訪問同乙份最新的資料副本),換句話就是說,任何時刻,所用的應用程式都能訪問得到相同的資料。

● 可用性(a):在集群中一部分節點故障後,集群整體是否還能響應客戶端的讀寫請求。(對資料更新具備高可用性),換句話就是說,任何時候,任何應用程式都可以讀寫資料。

● 分割槽容錯性(p):以實際效果而言,分割槽相當於對通訊的時限要求。系統如果不能在時限內達成資料一致性,就意味著發生了分割槽的情況,必須就當前操作在c和a之間做出選擇,換句話說,系統可以跨網路分割槽線性的伸縮和擴充套件。

大資料基礎知識(待續)

最近要參與大資料治理專案,但大資料相關知識是零,因此從頭開始了解學習。本人學習目的是用於測試,因此jindui 第二步了解mr,mapreduce,mr對hadoop來說是至關重要的,關於這個概念的理解,可以參考這位知友的回答當然慕課網上也有,可以花五分鐘看一下,基於此,基本對hadoop有基本了解...

大資料相關基礎知識

apache hadoop專案包括以下四個主要模組 1 hadoop common hadoop的通用工具集 2 hadoop distributed file system hdfs 分布式檔案系統 3 hadoop yarn 任務排程 集群資源管理框架 4 hadoop mapreduce 基於...

大資料基礎知識總結

1.什麼是大資料 維基百科對於大資料給出了乙個定性的描述 大資料是指無法使用傳統和常用的軟體技術和工具在一定時間內完成獲取 管理和處理的資料集。從技術特點來看,大資料滿足5v模型 大體量 volume 多樣性 variety 時效性 velocity 準確性 veracity 大價值 value 2...