Hadoop 生態體系

2022-01-19 22:30:52 字數 1126 閱讀 2598

hadoop是乙個開源的大資料框架,是乙個分布式計算的解決方案。

hadoop的兩個核心解決了資料儲存問題(hdfs分布式檔案系統)和分布式計算問題(mapre-duce)。

舉例1:使用者想要獲取某個路徑的資料,資料存放在很多的機器上,作為使用者不用考慮在哪台機器上,hd-fs自動搞定。

舉例2:如果乙個100p的檔案,希望過濾出含有hadoop字串的行。這種場景下,hdfs分布式儲存,突破了伺服器硬碟大小的限制,解決了單台機器無法儲存大檔案的問題,同時mapreduce分布式計算可以將大資料量的作業先分片計算,最後彙總輸出。

hdfs:分布式檔案系統(hadoop distributed file system)。

mapreduce:分布式計算。

yarn:為 hadoop 資料處理提供了通用的資源管理器和排程器。

apache hive:提供 hdfs 上資料的結構化定義,及資料的類 sql 查詢功能。

apache hbase:它是乙個分布式 nosql 資料儲存,提供 hdfs 上超大規模資料集的隨機訪問。

apache flume:乙個常用的資料採集工具,將基於事件的資料(如日誌)轉存至 hadoop。

apache sqoop:用來在外部資料儲存(如關係型資料庫)與 hadoop 之間進行資料移動。

apache zookeeper:來保障 hadoop 生態圈中各個專案間的協同工作。

hdfs概念

mapreduce

mapreduce 案例

hive架構

hive ddl

hive dml

hive查詢訪問

hive安全管理與壓縮

hbase 架構與操作

hbase 壓縮與儲存

flume

sqoop

zookeeper

elasticsearch

cloudera manager

hueimpala

oozie

Hadoop生態體系

1.hadoop的優勢 2.hdfs架構概述 3.yarn架構概述 4.mapreduce架構概述 mapreduce將計算過程分為兩個階段 map和reduce,如圖2 6所示。1 map階段並行處理輸入資料 2 reduce階段對map結果進行彙總 5.大資料技術生態體系 圖中涉及的技術名詞解釋...

Hadoop 生態認知

hdfs 不適合互動場景 大吞吐量 hbase key value store,適合儲存半結構化資料,例如 資料 對於同乙個key,value可以具有多個列column,每個列可以具有不同時間緯度下的值,也就是說可以拿到某個key 對應value隨時間變化的值 hbase適合大資料場景儲存,資料量要...

部落格二 Hadoop演進與Hadoop生態

q 了解對比hadoop不同版本的特性,可以用圖表的形式呈現。a 圖表 q hadoop生態的組成 每個元件的作用 元件之間的相互關係,以圖例加文字描述呈現。a 圖例 1 hdfs 分布式檔案系統 hadoop分布式檔案系統hdfs是針對谷歌分布式檔案系統的開源實現,它是hadoop兩大核心組成部分...