大資料相關學習筆記

2021-10-08 08:16:58 字數 1086 閱讀 2216

整體定位:是乙個用來儲存計算海量資料的框架,核心是hdfs+mapreduce

hdfs:分布式檔案系統。引入了存放檔案元資料資訊的伺服器namenode和實際存放資料的伺服器datanode,對資料進行分布式儲存和讀取

乙個形象的比喻:乙個分布式的,有冗餘備份的,可以動態擴充套件的用來儲存大規模資料的大硬碟

mapreduce: 計算框架。核心思想是把大任務分成小任務給集群內的伺服器執行。其中用map+reduce這倆過程對任務進行拆分

乙個計算引擎,按照mapreduce的規則編寫map計算/reduce計算的程式,可以完成計算任務

一些相關的概念

data node:每台機器上都會執行乙個datanode以管理機器上的磁碟,這樣很多機器就組成了分布式檔案系統

node manager:管理機器上的計算資源(cpu+記憶體)

name node:執行於主節點上,與每台機器上的data node通訊,維護元資訊,從而形成大的分布式檔案系統

resource manager:主節點,與node manager通訊,了解各個機器目前執行的任務的情況,從而維護了整個集群的分布式計算

概念:是乙個資源管理系統

功能步驟:

client提交作業給resource manager

概念:是乙個計算框架

結構:認為乙個計算就分為map+reduce這兩步。複雜任務用多個mapreduce串聯起來,形如map->reduce->map->reduce

詳解:

map:搞乙個list[map]出來

shuffling:根據map結果的key來雜湊一波放到對應的機器上,把map的結果變為了map,從而key相同的肯定放一台機器上了

reduce:合在一起進行最後的計算變成,map 例子

概念:另乙個計算框架

優點 彈性資料集

資料在記憶體中丟了可以恢復

函式式程式設計

速度比mr快

tbd

大資料學習筆記 Kafka相關命令記錄

jps 檢視kafka相關程序及程序號。其中kafka為kafka的守護程序,quorumpeermain為zookeeper的守護程序 13542 jps 6871 kafka 31224 quorumpeermain bin kafka topics.sh list zookeeper loca...

大資料學習筆記

大資料處理是雲計算中非常重要的領域,自google公司提出mapreduce分布式處理框架以來,以hadoop為代表的開源軟體受到越來越多公司的重視和青睞。本文將講述hadoop系統中的乙個新成員 impala。impala架構分析 impala是cloudera公司主導開發的新型查詢系統,它提供s...

大資料學習筆記 1 1 了解大資料

三 bigtable 大表 nosql資料庫 hbase 首先引入兩個個大資料應用場景 從以上兩個例子可以引出大資料的兩個核心問題 資料的儲存 分布式的檔案系統 hdfs hadoop distributed file system 資料的計算 資料的計算 不是演算法 分布式的計算 mapreduc...