hadoop學習筆記

2021-08-02 16:37:07 字數 1010 閱讀 2810

hadoop是apache開發的開源框架。

hadoop的核心是hdfs和mapredure。

hdfs,分布式檔案系統,為海量的資料提供儲存。

mapredure,並行處理框架,為海量的資料提供計算。

1、hdfs

hdfs的特點是:

(1)資料冗餘,硬體容錯

使用3個備份來實現硬體容錯,允許執行在廉價機器上。

(2)流式資料訪問

一旦寫入,不會被修改,也無法修改

(3)儲存大檔案

hdfs的侷限性

(1)將hdfs用於對資料訪問要求低延遲的場景

由於hdfs是為高資料吞吐量應用而設計的,必然以高延遲為代價。

(2)儲存大量小檔案

hdfs中元資料(檔案的基本資訊)儲存在namenode的記憶體中,而namenode為單點,小檔案數量大到一定程度,namenode記憶體就吃不消了。

hdfs基本架構

資料塊(block):大檔案會被分割成多個block進行儲存,block大小預設為64mb。每乙個block會在多個datanode上儲存多份副本,預設是3份。

namenode:namenode負責管理檔案目錄、檔案和block的對應關係以及block和datanode的對應關係。

datanode:datanode就負責儲存了,當然大部分容錯機制都是在datanode上實現的。

2、mapredure

分而治之,把乙個大任務分成多個小的子任務map,並行執行,合併結果redure。

mapreduce程式的工作分兩個階段進行:

(1)map 任務 (分割及對映)

(2)reduce 任務 (重排,還原)

上圖的例子是統計每個單詞出現的頻率。

Hadoop學習筆記 Hadoop初識

序言 資訊化發展到當今,網際網路的資料量是不斷地增加,那麼如何很好的處理以及利用這些資料可能是未來的乙個發展方向,這也之所以產生了各種平台的雲計算。對於網際網路而言,大資料量可分為兩種 第 一 大訪問量請求 第 二 大資料量處理。大訪問量請求這個事應用端應該思考的問題,如何很好的處理大的訪問量,如何...

Hadoop學習筆記

hadoop介紹 hadoop是google雲計算框架的開源實現,是乙個分布式儲存和分布式計算的框架,主要包括hdfs和mapreduce的實現。hdfs hdfs由乙個namenode和多個datanode組成,其中namenode相當於系統的元資料存放地,它是hadoop系統的神經中樞,而多個d...

Hadoop學習筆記

fsimage 記憶體元資料 editlog 效率 安全監測節點錯誤 datanode向namanode定時返回心跳 監測網路錯誤 資料傳送後返回ack 監測儲存錯誤 傳輸資料損壞,通過資料的checksum監測 硬碟儲存資料損壞,通過每個block的checksum監測 partition 將ma...