hadoop面試題整理 七

2021-06-28 03:18:31 字數 654 閱讀 1936

一. 問答題:

1. 簡單說說map端和reduce端溢寫的細節

2. hive的物理模型跟傳統資料庫有什麼不同

3. 描述一下hadoop機架感知

4. 對於mahout,如何進行推薦、分類、聚類的**二次開發分別實現那些介面

5. 直接將時間戳作為行健,在寫入單個region 時候會發生熱點問題,為什麼呢?

二. 計算題:

1. 比方:如今有10個資料夾, 每個資料夾都有1000000個url. 如今讓你找出top1000000url。

方法一:

運用2個job,第乙個job直接用filesystem讀取10個資料夾作為map輸入,url做key,reduce計算url的sum,

下乙個job map用url作key,運用sum作二次排序,reduce中取top10000000

方法二:

建hive表a,掛分割槽channel,每個資料夾是乙個分割槽.

select x.url,x.c from(select url,count(1) as c from a where channel ='' group by url) x order by x.c desc limit 1000000;

2.如果讓你設計,你覺得乙個分布式檔案系統應該如何設計,考慮哪方面內容?

hadoop面試題整理

一.問答 1.簡單描述如何安裝配置乙個apache開源版hadoop,只描述即可,無需列出完整步驟,能列出步驟更好。1 安裝jdk並配置環境變數 etc profile 2 關閉防火牆 3 配置hosts檔案,方便hadoop通過主機名訪問 etc hosts 4 設定ssh免密碼登入 5 解壓縮h...

hadoop面試題整理 一

一.問答 1.簡單描述如何安裝配置乙個apache開源版hadoop,只描述即可,無需列出完整步驟,能列出步驟更好。1 安裝jdk並配置環境變數 etc profile 2 關閉防火牆 3 配置hosts檔案,方便hadoop通過主機名訪問 etc hosts 4 設定ssh免密碼登入 5 解壓縮h...

hadoop面試題整理 五

一.問答題 1.hive如何調優?2.hive如何許可權控制?3.hbase寫資料的原理是什麼?4.hive能像關聯式資料庫那樣,建多個庫嗎?5.hbase宕機如何處理?6.hive實現統計的查詢語句是什麼?7.生產環境中為什麼建議使用外部表?8.hadoop mapreduce建立類datawri...