九 大資料技術之hadoop 5

2021-08-16 00:20:19 字數 1603 閱讀 6873

hdfs的體系結構

namenode: hdfs的主要管理者;接受客戶端的請求,比如說,將本地檔案上傳到hdfs上;維護檔案的元資訊(fsimage檔案)和操作日誌(edit檔案)

檔案的元資訊(fsimage檔案):乙個檔案上傳到hdfs上,檔案會被切成乙份份的資料塊,記錄這些資料塊的檔案就是檔案的元資訊

開啟虛擬機器,進入 ~/training/hadoop-2.7.3/tmp/dfs/name/current目錄,看到fsimage*******檔案就是檔案的元資訊,這個檔案記錄著hdfs上資料塊的儲存位置(資料塊儲存在哪個節點上),但此檔案是二進位制的檔案,不能檢視

操作日誌檔案(edit檔案): 記錄著客戶端的所有操作的日誌檔案

檔案的位置與fsimage檔案在同乙個目錄下,其中edits_inprogress_*********檔案詳細記錄著使用者的每個操作

datanode: 資料節點(偽分布式乙個, 全分布式至少兩個),主要用於儲存檔案的資料塊(hadoop1.x 資料塊為64m, hadoop2.x資料塊為128m)

進入到tools的目錄下,講目標檔案hadoop2.7的安裝包上傳到hdfs上,(ps: hdfs基本操作命令與linux類似,不會的請參考 首先使用hdfs dfs -mkdir /tools在hdfs上建立乙個名為tools的目錄,然後用hdfs dfs -ls / 可以檢視hdfs的根目錄看到多了乙個/tools的目錄(/input是之前建立的),hdfs dfs -put hadoop-2.7.3.tar.gz /tools 上傳檔案

然後進入本地的~/training/hadoop-2.7.3/tmp/dfs/data/current/bp-402346230-192.168.145.111-1519934689058/current/finalized/subdir0/subdir0目錄下,看到有四個檔案,其中blk_******就是資料塊檔案,blk_*****.meta就是對應的資料塊元資訊檔案

134217728 = 128 * 1024 * 1024,  79874467 = 76 * 1024 *1024,  經過計算,原始檔(204m)上傳到hdfs上被切成了兩個資料塊,第乙個為128m, 第二個為76m(204 - 128 = 76),如果上傳的檔案大於256m,檔案會被切成三個或者三個以上的資料塊,依次類推

secondarynamenode: 第二名稱節點,主要職責是定期將元資訊檔案(fsimage檔案)與日誌檔案(edit)進行合併,由於使用者的操作都會被記錄到日誌檔案裡,日誌檔案體現檔案的最新狀態,所以要定期將日誌與元資訊檔案進行合併

大資料技術之Hadoop解析

大資料技術之hadoop解析。1 資料現狀 2006年數字世界 digital universe 專案統計得出全球資料總量為0.18zb,2011年將達到1.8zb 1zb 1 000eb 1 000 000pb 1 000 000 000tb 資料增長速度也在加快。2 資料的儲存 資料讀取速度慢 ...

五 大資料技術之Hadoop(1)

大資料概念 巨量資料集合,指無法在一定時間範圍內用常規軟體工具進行捕捉 管理和處理的資料集合 4v 特性 volume 大量 velocity 高速 variety 多樣 value 低價值密度 網上對於大資料概念的敘述有很多,這裡不多做敘述 大資料要解決的核心問題 大量的資料如何儲存 分布式檔案系...

Hadoop技術 大資料概論

三 大資料應用場景 四 業務流程分析 大資料就是巨量的資料。大資料的計量單位已經超過tb級別發展到pb eb zb yb甚至bb級別。大資料是指在一定時間內無法使用傳統資料庫軟體工具採集 儲存 管理和分析其內容的資料集合。大資料技術的戰略意義不在於掌握龐大的資料資訊,而在於對於這些含有意義的資料進行...