Hadoop知識彙總

2021-07-03 12:27:53 字數 1254 閱讀 3435

hadoop的兩大功能:海量資料儲存和海量資料分析

1、hdfs:分布式檔案系統海量資料儲存

3、yarn:資源排程管理集群

hdfs工作機制:基於namenode和datanode

1、namenode:響應客戶端的請求;負責維護整個hdfs檔案系統的目錄樹,以及每乙個路徑(檔案)所對應的block塊資訊(block的id,及所在的datanode伺服器);元資料的管理

2、datanode:儲存管理使用者的檔案資料;定期向namenode匯報自己所持有的block資訊(通過心跳機制rpc)

namenode安全模式:1)、當nameonde發現檔案block丟失的數量達到乙個配置的門限時,就會進入安全模式,它在這個模式下等待datanode向它匯報block資訊;2)、

在安全模式下,namenode可以提供元資料查詢的功能,但是不能修改;

hdfs讀流程:1、跟

namenode

通訊查詢元資料,找到檔案塊所在的

datanode

伺服器

2、挑選一台

datanode

(就近原則,然後隨機)伺服器,請求建立

socket流

3、datanode

開始傳送資料(從磁碟裡面讀取資料放入流,以

packet

為單位來做校驗) 4

、客戶端以

packet

為單位接收,現在本地快取,然後寫入目標檔案

hdfs寫流程:

1、根namenode通訊請求上傳檔案,namenode檢查目標檔案是否已存在,父目錄是否存在

2、namenode返回是否可以上傳

3、client請求第乙個 block該傳輸到哪些datanode伺服器上

4、namenode返回3個datanode伺服器abc

5、client請求3臺dn中的一台a上傳資料(本質上是乙個rpc呼叫,建立pipeline),a收到請求會繼續呼叫b,然後b呼叫c,將真個pipeline建立完成,逐級返回客戶端

6、client開始往a上傳第乙個block(先從磁碟讀取資料放到乙個本地記憶體快取),以packet為單位,a收到乙個packet就會傳給b,b傳給c;a每傳乙個packet會放入乙個應答佇列等待應答

7、當乙個block傳輸完成之後,client再次請求namenode上傳第二個block的伺服器。

hadoop壓縮彙總

可以減少對集群磁碟空間的占用,減小平行計算資料傳輸時網路io 1.1安裝lzo 2.06.tar.gz 1.2步驟 解壓 進入lzo 2.06.目錄 configure make make install 1.3報錯處理 yum install gcc c 1.5然後利用hadoop 的編譯環境,進...

hadoop 相關知識

hadoop 2.x common hdfs 儲存資料 namenode 儲存檔案系統的元資料,命名空間namespace datanode 儲存資料 secondarynamenode 輔助namenode工作 週期性的合併倆個檔案 yarn hadoop 作業系統 data 資料作業系統 con...

Hadoop學習 三 Hadoop入門知識

hadoop主要由namenode和datanode組成。客戶機通過與namenode和datanode的互動訪問檔案系統。對namenode的容錯非常重要。hadoop集群的配置 設定好三颱虛擬機器,分別是node1,node2和node3。設定node1為namenode,在node1的core...