大資料面試(HDFS)

2021-10-03 11:47:21 字數 1444 閱讀 2271

第4章hdfs

4.1 hdfs 的讀寫流程細節?hdfs 中的 fsimage 裡面儲存的是什麼資訊?副本的存放策略?

答:這個大家最好回家準備乙個詳細的流程圖然後根據自己的圖講給面試官看

4.2 hdfs 的機架感知?

答:根據副本的存放策略,hdfs 是如何知道多個不同 node 是否在同乙個機架上呢 ?在namenode 啟動時如果 net.topology.script.file.name 配置的引數不為空,表示已經動機架感知,當 datanode 註冊時和 heartbeat 時,會把 datanode 的 ip 作為引數傳入,返回資訊為此datanode 的機架資訊。如果沒有引數配置,datanode 統一為預設的機架 /default-rack

4.3 如果 client 節點就在 hdfs 中的一台 datanode 節點上,副本的資料又是如何儲存的?

答案:存放在當前的 dn 上,其他的和副本的存放的策略一樣,第二個副本存放在和第乙個副本不同的機架上的節點上,第三個副本存放在同第二個副本相同的機架的不同的節點上

4.4 datanode 在什麼情況下不會備份資料

答:在客戶端上傳檔案時指定檔案副本數量為1,但是基本我們做大資料都是設定副本的數量是,這個還要根據自己公司的情況而定。

4.5 combine 合併出現在哪個過程

答:shuffle 過程中具體來說,combine 之不過是乙個特殊的 reduce 而已,並且發生在本地,累加 map 裡面 key 的值然後發給 reduce 處理

4.6 hdfs 的體系結構

答:集群架構:

namenode datanode secondarynamenode journalnode zkfc 這個是簡單的基本架構,在文章末尾我會找一下架構圖形提供給大家參考。

4.7 三個 datanode 中當有乙個 datanode 出現錯誤時會怎樣?

答:namenode 會第一時間通過心跳發現 datanode 下線,並且通過副本策略將這個 datanode 上的block 快重新傳送分配到集群中並且重新複製乙份保持每個 block 塊的副本數量不變。在此同事運維團隊一定要第一時間被通知到處理這個問題,盡快維修上線

4.8 hdfs 儲存機制,以及各個模組的職責

答:hdfs 主要是乙個分布式的檔案儲存系統,由 namenode 來接收使用者的操作請求,然後根據檔案大小,以及定義的 block 塊的大小,將大的檔案切分成多個 block 塊來進行儲存,這裡存在的優化問題點比較多,前期處理不好可能會造成後期的資料傾斜比較嚴重。

namenode是乙個中心伺服器:單一節點(簡化系統的設計和實現),負責管理檔案系統的名字空間(namespace)以及客戶端對檔案的訪問。

datanode用來儲存資料。

secondarynamenode 用來監控hdfs狀態的輔助後台程式,每隔一段時間獲取hdfs元資料的快照。

4.9 關於 secondarynamenode 哪項是正確的? 答案 c

獲取hdfs (大資料)HDFS

hdfs 是 hadoop 的分布式檔案系統,主要用於離線的大檔案資料資料儲存。hdfs 架構 hdfs 其實與作業系統的檔案系統類似,hdfs 主要有兩種角色,乙個是 namenode 檔案索引 另乙個是 datanode 儲存資料 namenode 主要負責記錄乙個檔案的儲存元資料 例如 檔名 ...

大資料 學習hdfs

hdfs是什麼?hadoop distributed file system,它是一種分布式檔案儲存系統,主要解決大資料的儲存問題。hdfs的優缺點 優點 缺點 hdfs的主要角色 namenode 簡稱nn 是hdfs的核心節點,最重要 主要功能是 接收客戶端的讀寫請求,接收datanode傳送的...

大資料原理 HDFS

hdfs解決海量的資料分布式儲存 優勢 廉價硬體 實現資料流讀寫 支援大資料集 支援簡單檔案模型 跨平台相容 侷限 實時性不高 無法儲存大量小檔案 只支援追加 抽象塊概念設計 64或128mb 個 支援大規模資料儲存 檔案切割 突破單機儲存界限 降低定址開銷 定址 元資料目錄 資料節點 取資料 適合...