Hadoop基礎概念

2021-09-12 05:22:01 字數 409 閱讀 7635

狹義:hadoop軟體 hadoop.apache.org

廣義:hadoop生態圈(hive zookeeper spark)

用2.x

3.x 需要踩坑

主要用cdh5.x 部署大資料環境

用的是 hadoop2.6.0-cdh5.7.0

ctrl + f 搜尋 cdh5.7.0

hdfs : 儲存 分布式檔案系統

mapreduce:計算

yarn:資源(cpu和記憶體)和作業排程

進入元件目錄 會發現一些共有的特點:

bin 為可執行指令碼

etc 為配置目錄 (conf)

lib 為jar包目錄 jar包公升級時需要替換

sbin 元件的啟動 停止指令碼

Hadoop基礎概念

hadoop模組組成 hdfs 用於儲存 可靠的,高吞量的分布式檔案系統 mapreduce 用於計算 分布式的離線平行計算框架 yarn 用於資源排程 作業排程與集群資源管理框架 common 支援其他模組的工具模組 檔案系統核心模組 hdfs的組成 namenode 集群當中的主節點,用於管理集...

Hadoop大資料平台實戰 基礎概念

hadoop 起源於 google 的三大 上述三大 的演變關係 hadoop 名稱的由來 hadoop 之父 doug cutting 兒子毛絨玩具象命名的。hadoop主流版本 apache hadoopcdhhdp 管理工具 手動人工 cloudera manager ambari 收費情況 ...

hadoop概念特徵。

分布式計算 hadoop 與傳統資料庫對比 zookeeper hadoop架構 大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取 管理和處理的資料集合。volume 大資料量 90 的資料是過去兩年產生 velocity 速度快 資料增長速度快,時效性高 結構化資料 半結構化資料 非結構化...