hadoop 大資料面試題(11) 比較好

2021-07-13 18:06:47 字數 1352 閱讀 6366

1、hdfs原理,以及各個模組的職責

2、mr的工作原理

3、map方法是如何呼叫reduce方法的

4、shell

如何判斷檔案是否存在,如果不存在該如何處理?

5、fsimage和edit的區別?

6、hadoop1和hadoop2的區別?

筆試:1、hdfs中的

block

預設儲存幾份?

2、哪個程式通常與nn在乙個節點啟動?並做分析

3、列舉幾個配置檔案優化?

4、寫出你對zookeeper的理解

5、datanode首次加入cluster的時候,如果log報告不相容檔案版本,那需要namenode執行格式化操作,這樣處理的原因

是?6、談談資料傾斜,如何發生的,並給出優化方案

7、介紹一下hbase

過濾器8、mapreduce基本執行過程

9、談談hadoop1和hadoop2的區別

10、hbase集群安裝注意事項

11、記錄包含值域f和值域g,要分別統計相同g值的記錄中不同的f值的數目,簡單編寫過程。

資訊科技****

1、你們的集群規模?

大概400多台機器。主要有專門的運維人員負責維護

hadoop版本 hadoop 2.5.0-cdh5.2.0

2、你們的資料是用什麼匯入到資料庫的?匯入到什麼資料庫?

mysql  

通過python產生 csv檔案,然後有乙個nginix伺服器,把檔案拉到mysql的機器,然後通過通過mysql的命令將.csv檔案裝進資料庫

3、你們業務資料量多大?有多少行資料?(面試了三家,都問這個問題)

我們的資料 : 每個小時的 中間表: 8.6g   一天的話有  207g   儲存 3個月, 大約有18t 的資料量

累積使用者:58,00萬 

活躍使用者 :2,00萬

新增使用者: 14萬

4、你們處理資料是直接讀

資料庫的資料還是讀文字資料?

讀取資料庫

5、你們寫hive的hql語句,大概有多少條?

寫的不多

6、你們提交的job任務大概有多少個?這些job執行完大概用多少時間?(面試了三家,都問這個問題)

這個只能看什麼了呢?  

只能讓他們看我們的**了。不能說其他的了。對吧

7、hive跟hbase的區別是?

8、你在專案中主要的工作任務是?

9、你在專案中遇到了哪些難題,是怎麼解決的?

10、你自己寫過udf函式麼?寫了哪些?

11、你的專案提交到

job的時候資料量有多大?(面試了三家,都問這個問題)

12、reduce後輸出的資料量有多大?

大資料hadoop面試題精準講解

包括hdfs和mapreduce兩部分。1 hdfs自動儲存多個副本,移動計算。缺點是小檔案訪問占用namenode記憶體,寫入只支援追加,不能隨機修改。它儲存的邏輯空間稱為block,檔案的許可權類似linux。整體架構分三種節點,nn,snn,dn nn 負責讀寫操作儲存metadata own...

大資料 hadoop 經典面試題 三

輸入分片 inputsplit 在進行map計算之前,mapreduce會根據輸入檔案計算輸入分片 input split 每個輸入分片 input split 針對乙個map任務 儲存的並非資料本身,而是乙個分片長度和乙個記錄資料的位置的陣列,輸入分片 input split 往往和hdfs的bl...

大資料面試題

海量資料面試題整理 1.給定a b兩個檔案,各存放50億個url,每個url各佔64位元組,記憶體限制是4g,讓你找出a b檔案共同的url?方案1 可以估計每個檔案安的大小為50g 64 320g,遠遠大於記憶體限制的4g。所以不可能將其完全載入到記憶體中處理。考慮採取分而治之的方法。s 求每對小...