《hadoop權威指南》筆記一 走進hdfs

2021-09-25 16:46:39 字數 1031 閱讀 3888

基於​《hadoop權威指南》第四版

hadoop分布式檔案系統(hdfs)被設計成適合執行在通用硬體(commodity hardware)上的分布式檔案系統。

hdfs是apache hadoop core專案的一部分。

hdfs本身為高吞吐而優化!

思考: 為何基於hdfs實現的hbase可以滿足低延遲的訪問需求?

每個檔案、目錄、資料塊的儲存資訊大約150位元組。

所以一百萬個檔案,至少需要300mb的記憶體。當小檔案過多時會直接壓垮namdnode。

hdfs最適合一次寫入多次讀取是最高效的訪問模式

當然二者的關係不僅僅如此,會有一些複雜的設計在裡面。

hdfs預設塊是128mb,但是當你資料是是10mb時,hdfs不會占用128mbmb(與普通檔案系統不一樣)。

為了最小化定址開銷。當然這個值也不能太大,map任務通常一次只能處理乙個塊中的資料。

# 檢視help

hadoop fs -help

# 上傳檔案

hadoop fs -copyfromlocal *** hdfs://localhost/

hadoop fs -copytolocal

# 建目錄

hadoop fs -mkdir dir

# ls

hadoop fs -ls .

# ls結果的第二列是副本數。其中目錄的元資料儲存在namenode無副本一說,所以值是 「-」

當客戶端使用core-site.xml配置後,我們的命令就不需要使用冗長的uri

最佳分片大小與塊大小相同,如果分片跨越兩個資料塊。hdfs基本不會同時儲存著兩個資料塊,因此分片中的部分資料需要通過網路傳輸到map任務執行的節點。

中間資料儲存在hdfs小題大做了(沒必要多副本)。儲存在本地磁碟還可以加速運算,減少網路傳輸。

reduce任務並不具備本地化的優勢。

都是6小步,在下一筆記詳細介紹

《Hadoop權威指南》索引筆記

2015年5月2日 hadoop檔案格式 一 hdfs 1.hdfs一次寫入,多次讀取,每次分析應涉及大部分資料 批處理才有優勢 2.hdfs缺點 低延遲訪問 大量小檔案 使用者修改 3.hdfs塊大小 預設64m,但實際工作中往往調大 最小化定址開銷 但不能太大,一般乙個map處理乙個block,...

Hadoop 權威指南

rpm包和deb包是兩種linux系統下最常見的安裝包格式,在安裝一些軟體或服務的時候免不了要和它們打交道。rpm包主要應用在redhat系列包括 fedora等發行版的linux系統上,deb包主要應用於debian系列包括現在比較流行的ubuntu等發行版上。yum可以用於運作rpm包,例如在f...

hadoop權威指南閱讀 一

1.任務 查詢所有年份最高氣溫 map的目的是吐出點對,年份 氣溫 output.collect new text year new intwritable airtemperature key可以重複,例如可以是 1950 23 1950 22 1950 28 2 maxtemperaturere...