大資料平台架構

大資料架構分為:資料採集,傳輸,儲存,排程和處理這五個部分.其中任務定期執行和任務分配,分別使用azkaban和zookeeper，大資料平台整體架構如圖1所示，由圖1可知，大資料平台的基礎是伺服器（硬體），所有計算機相關的服務均是基於伺服器（或主機），伺服器是一切服務和資料的根本，用於儲存、通訊、提供服務等等，在伺服器中部署資料儲存服務，如mysql、hive等資料結構工具，在伺服器中儲存的資料是無「生命」的，當伺服器儲存了海量資料，並需要分析資料時，通過hadoop構建大資料平台，使這些無「生命」的資料「復活」，然而，通過mysql等工具儲存的資料不能直接被hadoop利用，需要利用如sqoop、kafka和flume等資料傳輸工具將海量的資料傳輸到hadoop的檔案系統hdfs中，儲存到hdfs中的資料經過hbase和yran標準化資料，供分析隨時呼叫，資料處理使用spark和flink，實現資料實時處理。當進行分布式部署大資料集群時，使用zookeeper維護集群，任務排程使用azkaban完成。

圖1 大資料架構

大資料工具及相關功能如圖2所示。

圖2 大資料工具

資料型別

結構化資料:資料庫資料.

半結構化資料:xml資料

非結構化資料:word,pdf,文字,**日誌.

大資料相關操作:

資料採集,策展,儲存, ,分享,傳輸,分析,展示.

hadoop是apache的大資料集處理的開源框架.hadoop執行批量處理,並且只能以順序方式訪問資料,意味著必須搜尋整個資料集,即使最簡單的搜尋任務,當處理結果在另乙個龐大的資料集,也是按照順序處理大資料集. 序號

特點1分布式儲存和處理

2hadoop提供的命令介面與hdfs進行互動

3內建伺服器的名稱節點和資料節點可檢查集群狀態

4流式訪問檔案系統資料

5提供檔案許可權和驗證

hdfs與現有的分布式系統有許多相似之處,但hdfs高度容錯並設計成部署在低成本的硬體上,提高了高吞吐量的應用資料訪問,並適用於具有大資料集的應用程式.

hbase是基於hdfs的分布式面向列的資料庫,是乙個資料模型,可以提供快速隨機訪問海量結構化資料,該資料模型定義只能有列族,及鍵值對,乙個表有多個列族及每乙個列族可以有任意數量的列,後續列的值連續儲存在磁碟上,表中的每個單元格都具有時間戳.用於解決hadoop只能批量順序處理資料,對隨機讀取速度慢的問題.

行列族列族列族

列1列2

列1列212

3大資料高效儲存格式解決方案.

序號特點描述1

列式儲存

高效的列式資料組織,區別於行存,可實現列剪裁和過濾下壓,使olap查詢效能更高

2豐富的索引引擎

支援全域性多維索引,檔案索引,min/max,倒排索引等多種索引技術,從表級,檔案級和列級多個層級快速定位資料,避免sql-on-hadoop引擎常見的"暴力掃瞄",從而大幅度提公升效能

3全域性字典編碼

包括常見的delta,rle和bitpacking等編碼,應用全域性字典編碼來實現免解碼計算,計算框架可以直接使用經過編碼的資料來聚合,排序等計算

4自適應型別轉換

針對分析型應用中大量使用的數值型別(double/decimal/numerical/bigint)實現儲存內資料型別轉換,配合列式資料壓縮,使壓縮更加高效

5標準sql和api

在sparksql基礎上,支援標準sql99/2003,支援批量資料更新,刪除,適用於olap場景下資料的週期性重新整理,如拉鍊表更新,維表資料同步,提供jdbc/odbc連線,支援bi工具無縫對接,相容spark dataframe/dataset

6資料生態整合

支援與hadoop,spark等大資料生態整合,支援和商業bi工具無縫對接

序號特點

1sql支援,tidb是mysql相容的

2水平線性彈性擴充套件

3分布式事務

4跨資料中心資料強一致性保證

5故障自恢復的高可用

hive是基於hadoop的乙個資料倉儲工具,將結構化的資料檔案對映為一張資料表,並提供類sql查詢功能，通過hive將hql轉換為mapreduce執行，處理hdfs中的結構化資料。hive作為hdfs資料處理的中介，通過hive呼叫mapreduce功能。

oozie是管理hadoop任務的工作流排程程式

sqoop將批量結構化資料匯入hdfs,sqoop是基於乙個聯結器體系結構,支援外掛程式來提供連線到新的外部系統,sqoop聯結器與各種流行的關係型資料庫,如mysql,postgresql,oracle,sqlserver和db2,進項互動.

flume用於移動大規模批量流資料到hdfs系統,從web伺服器收集當前日誌檔案資料到hdfs聚合.

kafka是訊息中介軟體,但是具備儲存功能.

yarn(yet another resource negotiation,yarn),是快速,可靠,安全的依賴管理工具,用於分布式框架中的資源管理和作業排程.yarn最大的特點是執行排程與hadoop上執行的任務型別無關.

spark是大規模資料處理的統一分析引擎.

flink是大資料計算引擎,同時支援批處理和流處理.

storm

tableau

powerbi

finebi

更新ing

【參考文獻】

[1][2]

[3][4]

[5][6]

[7][8]/introto-flume-and-sqoop.html

[9][10]

[11]

[12]

[13]

[14]

大資料平台架構

DKHadoop大資料平台架構詳解

推送平台架構

SOA平台架構解析

大資料平台架構

DKHadoop大資料平台架構詳解

推送平台架構

SOA平台架構解析

相關推薦