hadoop概念特徵。

2021-10-06 17:32:46 字數 2575 閱讀 9528

分布式計算

hadoop

與傳統資料庫對比

zookeeper

hadoop架構

大資料是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的資料集合。

volume(大資料量):90%的資料是過去兩年產生

velocity(速度快):資料增長速度快,時效性高

結構化資料、半結構化資料、非結構化資料

value(價值密度低):需要挖掘資料價值

時效性

不可變性

分布式計算將較大的資料分成小的部分進行處理

專案傳統分布式計算

新的分布式計算-hadoop

計算方式

將資料複製到計算節點

在不同資料節點平行計算

可處理資料量

小資料量

大資料量

cpu效能限制

受cpu限制較大

受單台裝置限制小

提公升計算能力

提公升單台機器計算能力

擴充套件低成本伺服器集群

hadoop是乙個開源分布式系統架構

分布式檔案系統hdfs——解決大資料儲存

分布式計算框架mapreduce——解決大資料計算

分布式資源管理系統yarn

處理海量資料的架構首選

非常快的完成大資料計算任務

已發展成為乙個hadoop生態圈

hadoop發行版本

hadoop與關係型資料庫對比

專案rdbms

hadoop

格式寫資料時要求

讀資料時要求

速度讀資料速度快

寫資料速度快

資料監管

準結構化

任意資料結構

資料處理

有限的處理能力

強大的處理能力

資料型別

結構化資料

結構化、半結構化、非結構化

應用場景

互動式olap分析、acid事務處理、企業業務系統

處理非結構化資料、海量資料儲存計算

zookeeper集群

角色:leader、follower、observer

hdfs dfs -put /opt/sed.txt /mydemo   把opt裡面的sed.txt上傳到mydemo資料夾裡面

hdfs dfs -text /mydemo/sed.txt 檢視sed.txt

hdfs dfs -mkdir -p /mydemo/xuxu 遞迴建立目錄mydemo/xuxu

hdfs dfs -rmr /mydemo 遞迴刪除mydemo目錄

建立存放資料檔案的目錄:

hdfs dfs -mkdir /hdfs/shell

hdfs dfs -ls/hdfs/shell

將通訊資料上傳到hdfs並檢視

hdfs dfs -put /home/hadoop/data/mobile.txt/hdfs/shell

hdfs dfs -text /hdfs/shell/mobile.txt

hdfs dfs -get /hdfs/shell/mobile.txt /home/hadoop
統計目錄下檔案大小

hdfs dfs -du /hdfs/shell
刪除移動資料檔案和目錄

hdfs dfs -rm /hdfs/shell/mobile.txt

hdfs dfs -rmr /hdfs rmr遞迴刪除目錄下所有子目錄和檔案,生產環境慎用

副本機制:

客戶下達命令,要讀a.txt檔案,經過分布式檔案系統的讀取,到namenode讀取fsimage和行為日誌edits.log,再把這些資料塊位址都打包傳送到客戶端,經過fsinputstream讀取檔案輸入流讀取datanode裡面的資料然後返回到客戶端,最後關閉輸入流。

首先向分布式檔案系統傳送訊號,然後向namenode傳送訊號確認是否有空間存放,namenode返回訊號和空間位址到客戶端,然後經過輸出流fsdataoutputstream往datanode寫入資料,並備份至同機架副本和相鄰機架副本,然後向客戶端傳送訊號完成寫入,最後關閉輸出流。

Hadoop基礎概念

狹義 hadoop軟體 hadoop.apache.org 廣義 hadoop生態圈 hive zookeeper spark 用2.x 3.x 需要踩坑 主要用cdh5.x 部署大資料環境 用的是 hadoop2.6.0 cdh5.7.0 ctrl f 搜尋 cdh5.7.0 hdfs 儲存 分布...

Hadoop基礎概念

hadoop模組組成 hdfs 用於儲存 可靠的,高吞量的分布式檔案系統 mapreduce 用於計算 分布式的離線平行計算框架 yarn 用於資源排程 作業排程與集群資源管理框架 common 支援其他模組的工具模組 檔案系統核心模組 hdfs的組成 namenode 集群當中的主節點,用於管理集...

hadoop 分片 分割槽概念

參考部落格 輸入分片 input split 在進行map計算之前,mapreduce會根據輸入檔案計算輸入分片 input split 每個輸入分片 input split 針對乙個map任務,輸入分片 input split 儲存的並非資料本身,而是乙個分片長度和乙個記錄資料的位置的陣列。had...