大資料基礎知識

一種規模大到在獲取、儲存

、管理、分析方面大大超出了傳統資料庫

軟體工具能力範圍的資料集合，具有海量的資料規模、快速的資料流轉、多樣的資料型別和價值密度低四大特徵。大資料需要特殊的技術，以有效地處理大量的容忍經過時間內的資料。適用於大資料的技術，包括大規模並行處理

（mpp）資料庫

、資料探勘、分布式檔案系統

、分布式資料庫

、雲計算平台

、網際網路和可擴充套件的儲存系統。

按順序給出所有單位：bit、byte、kb、mb、gb、tb、pb、eb、zb、yb、bb、nb、db。（進率2^10）

批處理計算（ mapreduce，spark）：最適合於完成大資料批處理的計算模式是mapreduce，首先，mapreduce對具有簡單資料關係、易於劃分的大規模資料採用「分而治之」的並行處理思想；然後將大量重複的資料記錄處理過程總結成map和reduce兩個抽象的操作；最後mapreduce提供了乙個統一的平行計算框架，把平行計算所涉及到的諸多系統層細節都交給計算框架去完成，以此大大簡化了程式設計師進行並行化程式設計的負擔。

流式計算（scribe ，flume，storm，s4，sparkstreaming）流式計算是一種高實時性的計算模式，需要對一定時間視窗內應用系統產生的新資料完成實時的計算處理，避免造成資料堆積和丟失。

迭代計算（ haloop ，imapreduce，twister，spark）為了克服hadoop mapreduce難以支援迭代計算的缺陷，工業界和學術界對hadoop mapreduce進行了不少改進研究。haloop把迭代控制放到mapreduce作業執行的框架內部，並通過迴圈敏感的排程器保證前次迭代的reduce輸出和本次迭代的map輸入資料在同一臺物理機上，以減少迭代間的資料傳輸開銷；

互動式計算

圖計算（pregel,powergrapg,graphx）

記憶體計算（dremel，hana，redis）

六、大資料的工作流程

1、採集與預處理

從資料來源採集的資料，需要通過資料融合、資料整合、資料整合，生成新的資料集，供後續查詢、分析、處理提供統一的資料檢視

2、儲存管理

分布式檔案系統

分布式資料庫（newsql、nosql）

3、計算模式

包括批處理、互動式處理、流式計算、迭代計算、圖計算、記憶體計算

4、分析與挖掘

5、視覺化處理

七、cdh簡介

cdh首先是100%開源，基於apache協議。基於apache

hadoop

和相關projiect開發。可以做批量處理，互動式sql查詢和及時查詢，基於角色的許可權控制。在企業中使用最廣的

hadoop

分發版本。

八、分布式架構設計cap的工作原理

● 一致性（c）：在分布式系統中的所有資料備份，在同一時刻是否同樣的值。（等同於所有節點訪問同乙份最新的資料副本），換句話就是說，任何時刻，所用的應用程式都能訪問得到相同的資料。

● 可用性（a）：在集群中一部分節點故障後，集群整體是否還能響應客戶端的讀寫請求。（對資料更新具備高可用性），換句話就是說，任何時候，任何應用程式都可以讀寫資料。

● 分割槽容錯性（p）：以實際效果而言，分割槽相當於對通訊的時限要求。系統如果不能在時限內達成資料一致性，就意味著發生了分割槽的情況，必須就當前操作在c和a之間做出選擇，換句話說，系統可以跨網路分割槽線性的伸縮和擴充套件。

大資料基礎知識

大資料基礎知識（待續）

大資料相關基礎知識

大資料基礎知識總結

大資料基礎知識

大資料基礎知識（待續）

大資料相關基礎知識

大資料基礎知識總結

相關推薦