hadoop面試題整理 五

2021-06-28 03:15:23 字數 494 閱讀 8675

一. 問答題

1.hive如何調優?

2.hive如何許可權控制?

3.hbase寫資料的原理是什麼?

4.hive能像關聯式資料庫那樣,建多個庫嗎?

5.hbase宕機如何處理?

6.hive實現統計的查詢語句是什麼?

7.生產環境中為什麼建議使用外部表?

8.hadoop mapreduce建立類datawritable的作用是什麼?

9.為什麼建立類datawritable?

二. 思考題

1.假設公司要建乙個資料中心,你會如何規劃?

2.用hadoop分析海量日誌檔案,每行日誌記錄了如下資料:

tablename(表名),time(時間),user(使用者),timespan(時間開銷)。

要求:編寫mapreduce程式算出高峰時間段(如上午10 點)哪張表被訪問的最頻繁,以及這段時間訪問這張表最多的使用者,以及這個使用者的總時間開銷。

hadoop面試題整理

一.問答 1.簡單描述如何安裝配置乙個apache開源版hadoop,只描述即可,無需列出完整步驟,能列出步驟更好。1 安裝jdk並配置環境變數 etc profile 2 關閉防火牆 3 配置hosts檔案,方便hadoop通過主機名訪問 etc hosts 4 設定ssh免密碼登入 5 解壓縮h...

hadoop面試題整理 一

一.問答 1.簡單描述如何安裝配置乙個apache開源版hadoop,只描述即可,無需列出完整步驟,能列出步驟更好。1 安裝jdk並配置環境變數 etc profile 2 關閉防火牆 3 配置hosts檔案,方便hadoop通過主機名訪問 etc hosts 4 設定ssh免密碼登入 5 解壓縮h...

hadoop面試題整理 七

一.問答題 1.簡單說說map端和reduce端溢寫的細節 2.hive的物理模型跟傳統資料庫有什麼不同 3.描述一下hadoop機架感知 4.對於mahout,如何進行推薦 分類 聚類的 二次開發分別實現那些介面 5.直接將時間戳作為行健,在寫入單個region 時候會發生熱點問題,為什麼呢?二....