Hadoop 初級概念總結

2021-09-10 19:34:54 字數 1128 閱讀 5042

google大資料技術

mapreduce bigtable gfs

hadoop

乙個模仿google大資料技術的開源實現

開源的 apache

分布式儲存 + 分布式計算平台

核心:hdfs 分布式檔案系統 儲存海量資料

mapreduce 並行處理框架 實現任務分解和排程

用途搭建大型資料倉儲 pb級資料儲存 處理 分析 等業務

開源工具:

hive :降低使用hadoop的使用門檻

hbase 提供資料的讀寫和實時訪問,實現對錶資料的讀寫功能

zookeeper 管理hadoop節點功能

版本:1.x 2.x

1.x穩定

2.x不穩定

新手使用1.2

安裝:1.準備linux環境

2.安裝jdk

3.配置hadoop

通過網路租用 雲主機

阿里雲 unintestack 等

hdfs 檔案系統

hdfs的檔案被分成塊進行儲存

hdfs塊的預設大小為64m

塊是檔案儲存處理的邏輯單元

兩類節點

namenode datanode

namenode 管理節點,存放檔案元資料

datanode hdfs工作節點,存放資料塊

資料塊副本:每個資料塊3個副本 分別存放在2個機架上

hdfs特點

1.資料冗餘 硬體容錯

2.流式的資料訪問

3.儲存大檔案

適用性和侷限性

適合資料批量讀寫,吞吐量高

不適合互動應用,低延遲很難滿足

適合一次寫入 多次讀取 順序讀寫

不支援多使用者併發寫相同檔案

mapreduce

分而治之,將乙個大任務分成多個小的子任務(map),並行執行後合併結果。

基本概念

job & task

jobtracker

tasktracker

mapreduce的容錯機制

1.重複執行

2.推測執行

hadoop初級遇到的問題

1.securecrt輸出亂碼問題 未解決問題 執行mapreduce程式時,報網域名稱解析失敗 gzip stdin not in gzip format tar child returned status 1 tar error is not recoverable exiting now 解決...

Hadoop基礎概念

狹義 hadoop軟體 hadoop.apache.org 廣義 hadoop生態圈 hive zookeeper spark 用2.x 3.x 需要踩坑 主要用cdh5.x 部署大資料環境 用的是 hadoop2.6.0 cdh5.7.0 ctrl f 搜尋 cdh5.7.0 hdfs 儲存 分布...

Hadoop基礎概念

hadoop模組組成 hdfs 用於儲存 可靠的,高吞量的分布式檔案系統 mapreduce 用於計算 分布式的離線平行計算框架 yarn 用於資源排程 作業排程與集群資源管理框架 common 支援其他模組的工具模組 檔案系統核心模組 hdfs的組成 namenode 集群當中的主節點,用於管理集...