二大資料的生態體系

自下而上:

資料傳輸層：根據資料的結構不同主要分為sqoop\flume\kafka等

資料儲存層：hadoop中常用的檔案儲存主件就是hdfs，hbase是非關係型資料以鍵值對儲存，kafka可以有1g的快取

資源管理層：yarn資源的管理，負責分配記憶體、網路分配等

資料計算層：分為離線排程和實時排程

離線計算主要負責統計任務，比如一天、乙個月的交易量等，常用mapreduce 和 sparkcore記憶體計算

實時計算主要負責高併發的實時計算，比如雙十一活動等，主要是spark streaming實時計算和flink.

任務排程層：負責任務的先後順序和依賴排程等任務安排

大資料（二）大資料相關的技術

大資料常和雲計算聯絡到一起，因為實時的大型資料集分析需要分布式處理框架來向數十數百或甚至數萬的電腦分配工作。可以說，雲計算充當了工業革命時期的發動機的角色，而大資料則是電。雲計算思想的起源是麥卡錫在上世紀 60 年代提出的把計算能力作為一種像水和電一樣的公用事業提供給使用者。如今，在 goog...

大資料技術生態體系

1 sqoop sqoop是一款開源的工具，主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞，可以將乙個關係型資料庫例如 mysql，oracle 等中的資料導進到hadoop的hdfs中，也可以將hdfs的資料導進到關係型資料庫中。2 flume flume是clo...

大資料技術生態體系

大資料技術生態體系如圖2 26所示。圖中涉及的技術名詞解釋如下 1 sqoop sqoop是一款開源的工具，主要用於在hadoop hive與傳統的資料庫 mysql 間進行資料的傳遞，可以將乙個關係型資料庫例如 mysql，oracle 等中的資料導進到hadoop的hdfs中，也可以將hdf...

二 大資料的生態體系

大資料（二）大資料相關的技術

大資料技術生態體系

大資料技術生態體系

相關推薦

二大資料的生態體系