大資料面試（HDFS）

第4章hdfs

4.1 hdfs 的讀寫流程細節？hdfs 中的 fsimage 裡面儲存的是什麼資訊？副本的存放策略？

答：這個大家最好回家準備乙個詳細的流程圖然後根據自己的圖講給面試官看

4.2 hdfs 的機架感知？

答：根據副本的存放策略，hdfs 是如何知道多個不同 node 是否在同乙個機架上呢 ?在namenode 啟動時如果 net.topology.script.file.name 配置的引數不為空，表示已經動機架感知，當 datanode 註冊時和 heartbeat 時，會把 datanode 的 ip 作為引數傳入，返回資訊為此datanode 的機架資訊。如果沒有引數配置，datanode 統一為預設的機架 /default-rack

4.3 如果 client 節點就在 hdfs 中的一台 datanode 節點上，副本的資料又是如何儲存的？

答案：存放在當前的 dn 上，其他的和副本的存放的策略一樣，第二個副本存放在和第乙個副本不同的機架上的節點上，第三個副本存放在同第二個副本相同的機架的不同的節點上

4.4 datanode 在什麼情況下不會備份資料

答：在客戶端上傳檔案時指定檔案副本數量為1，但是基本我們做大資料都是設定副本的數量是，這個還要根據自己公司的情況而定。

4.5 combine 合併出現在哪個過程

答：shuffle 過程中具體來說，combine 之不過是乙個特殊的 reduce 而已，並且發生在本地，累加 map 裡面 key 的值然後發給 reduce 處理

4.6 hdfs 的體系結構

答：集群架構：

namenode datanode secondarynamenode journalnode zkfc 這個是簡單的基本架構，在文章末尾我會找一下架構圖形提供給大家參考。

4.7 三個 datanode 中當有乙個 datanode 出現錯誤時會怎樣？

答：namenode 會第一時間通過心跳發現 datanode 下線，並且通過副本策略將這個 datanode 上的block 快重新傳送分配到集群中並且重新複製乙份保持每個 block 塊的副本數量不變。在此同事運維團隊一定要第一時間被通知到處理這個問題，盡快維修上線

4.8 hdfs 儲存機制，以及各個模組的職責

答：hdfs 主要是乙個分布式的檔案儲存系統，由 namenode 來接收使用者的操作請求，然後根據檔案大小，以及定義的 block 塊的大小，將大的檔案切分成多個 block 塊來進行儲存，這裡存在的優化問題點比較多，前期處理不好可能會造成後期的資料傾斜比較嚴重。

namenode是乙個中心伺服器:單一節點（簡化系統的設計和實現），負責管理檔案系統的名字空間(namespace)以及客戶端對檔案的訪問。

datanode用來儲存資料。

secondarynamenode 用來監控hdfs狀態的輔助後台程式，每隔一段時間獲取hdfs元資料的快照。

4.9 關於 secondarynamenode 哪項是正確的？答案 c

大資料面試（HDFS）

獲取hdfs （大資料）HDFS

大資料學習hdfs

大資料原理 HDFS

大資料面試（HDFS）

獲取hdfs （大資料）HDFS

大資料 學習hdfs

大資料原理 HDFS

相關推薦

大資料學習hdfs