hadoop學習筆記

2021-09-28 18:56:50 字數 1278 閱讀 9270

hadoop common

hadoop distributed file system(功能:對資料儲存功能的訪問)

分布式儲存系統

提供了 高可靠性、高擴充套件性和高吞吐率的資料儲存服務

hadoop yarn(用於框架和集群管理)

分布式計算框架(計算向資料移動)

具有 易於程式設計、高容錯性和高擴充套件性等優點。

hadoop mapreduce( 實現資料的分析和處理)

hadoop 的思想理念

(主)namenode節點儲存檔案元資料:單節點 posix(從)datanode節點儲存檔案block資料:多節點datanode與namenode保持持續聯通(每隔一段時間,ping一下),提交block列表

hdfsclient與namenode互動元資料資訊

hdfsclient與datanode互動檔案block資料

第乙個副本:放置在上傳檔案的datanode中;如果是在集群外的話,則隨機挑選一台磁碟不太滿,cpu不太忙的節點。

第二個副本:放置在於第乙個副本不同的機架的節點上。

第三個副本:與第二個副本相同機架的不同節點。

更多副本:隨機節點

hdfs優點:

namenode(nn)

基於記憶體儲存 :不會和磁碟發生交換

只存在記憶體中

持久化(namenode的metadate資訊在啟動後會載入到記憶體;

metadata儲存到磁碟檔名為」fsimage」;

block的位置資訊不會儲存到fsimage

)namenode主要功能:

接受客戶端的讀寫服務

收集datanode匯報的block列表資訊

namenode儲存metadata資訊包括

檔案owership和permissions

檔案大小,時間

(block列表:block偏移量),位置資訊

block每副本位置(由datanode上報)

datanode(dn)

本地磁碟目錄儲存資料(block),檔案形式

同時儲存block的元資料資訊檔案

啟動dn時會向nn匯報block資訊

通過向nn傳送心跳保持與其聯絡(3秒一次),如果nn 10分鐘沒有收到dn的心跳,則認為其已經lost,並copy其上的block到其它dn

Hadoop學習筆記 Hadoop初識

序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...

Hadoop學習筆記

hadoop介紹 hadoop是google雲計算框架的開源實現,是乙個分布式儲存和分布式計算的框架,主要包括hdfs和mapreduce的實現。hdfs hdfs由乙個namenode和多個datanode組成,其中namenode相當於系統的元資料存放地,它是hadoop系統的神經中樞,而多個d...

Hadoop學習筆記

fsimage 記憶體元資料 editlog 效率 安全監測節點錯誤 datanode向namanode定時返回心跳 監測網路錯誤 資料傳送後返回ack 監測儲存錯誤 傳輸資料損壞,通過資料的checksum監測 硬碟儲存資料損壞,通過每個block的checksum監測 partition 將ma...