hadoop面試題整理一

一. 問答：

1. 簡單描述如何安裝配置乙個apache開源版hadoop，只描述即可，無需列出完整步驟，能列出步驟更好。 1

) 安裝jdk並配置環境變數（/etc/profile）

2) 關閉防火牆

3) 配置hosts檔案，方便hadoop通過主機名訪問（/etc/hosts）

4) 設定ssh免密碼登入

5) 解壓縮hadoop安裝包，並配置環境變數

6) 修改配置檔案（$hadoop_home/conf）

hadoop-env.sh core-site.xml hdfs-site.xml mapred-site.xml

7) 格式化hdfs檔案系統（hadoop namenode -format）

8) 啟動hadoop （$hadoop_home/bin/start-all.sh）

9) 使用jps檢視程序

2. 請列出正常工作的hadoop集群中hadoop都分別需要啟動那些程序，他們的作用分別是什麼，盡可能寫的全面些。

1) namenode: hdfs的守護程序，負責記錄檔案是如何分割成資料塊，以及這些資料塊分別被儲存到那些資料節點上，它的主要功能是對記憶體及io進行集中管理

2) secondary namenode：輔助後台程式，與namenode進行通訊，以便定期儲存hdfs元資料的快照。

3) datanode：負責把hdfs資料塊讀寫到本地的檔案系統。

4) jobtracker：負責分配task，並監控所有執行的task。

5) tasktracker：負責執行具體的task，並與jobtracker進行互動。

3. 請列出你所知道的hadoop排程器，並簡要說明其工作方法。

比較流行的三種排程器有：預設排程器fifo，計算能力排程器capacity scheduler，公平排程器fair scheduler

1) 預設排程器fifo

hadoop中預設的排程器，採用先進先出的原則

2) 計算能力排程器capacity scheduler

選擇占用資源小，優先順序高的先執行

3) 公平排程器fair scheduler

同一佇列中的作業公平共享佇列中所有資源

4. hive有那些方式儲存元資料的，各有那些特點。

1) 記憶體資料庫derby，較小，不常用

2) 本地mysql，較常用

3) 遠端mysql，不常用

5. 請簡述hadoop怎樣實現二級排序。

在hadoop中，預設情況下是按照key進行排序，如果要按照value進行排序怎麼辦？

有兩種方法進行二次排序，分別為：buffer and in memory sort和 value-to-key conversion。

buffer and in memory sort

主要思想是：在reduce()函式中，將某個key對應的所有value儲存下來，然後進行排序。這種方法最大的缺點是：可能會造成out of memory。

value-to-key conversion

主要思想是：將key和部分value拼接成乙個組合key（實現writablecomparable介面或者調setsortcomparatorclass函式），這樣reduce獲取的結果便是先按key排序，後按value排序的結果，需要注意的是，使用者需要自己實現paritioner，以便只按照key進行資料劃分。hadoop顯式的支援二次排序，在configuration類中有個setgroupingcomparatorclass()方法，可用於設定排序group的key值

6. 簡述hadoop實現join的幾種方法。

1) reduce side join

reduce side join是一種最簡單的join方式，其主要思想如下：

在map階段，map函式同時讀取兩個檔案file1和file2，為了區分兩種**的key/value資料對，對每條資料打乙個標籤（tag）,比如：tag=0表示來自檔案file1，tag=2表示來自檔案file2。即：map階段的主要任務是對不同檔案中的資料打標籤。

在reduce階段，reduce函式獲取key相同的來自file1和file2檔案的value list，然後對於同乙個key，對file1和file2中的資料進行join（笛卡爾乘積）。即：reduce階段進行實際的連線操作。

2) map side join

之所以存在reduce side join，是因為在map階段不能獲取所有需要的join欄位，即：同乙個key對應的字段可能位於不同map中。reduce side join是非常低效的，因為shuffle階段要進行大量的資料傳輸。

map side join是針對以下場景進行的優化：兩個待連線表中，有乙個表非常大，而另乙個表非常小，以至於小表可以直接存放到記憶體中。這樣，我們可以將小表複製多份，讓每個map task記憶體中存在乙份（比如存放到hash table中），然後只掃瞄大表：對於大表中的每一條記錄key/value，在hash table中查詢是否有相同的key的記錄，如果有，則連線後輸出即可。

為了支援檔案的複製，hadoop提供了乙個類distributedcache，使用該類的方法如下：

（1）使用者使用靜態方法distributedcache.addcachefile()指定要複製的檔案，它的引數是檔案的uri（如果是hdfs上的檔案，可以這樣：hdfs://namenode:9000/home/***/file，其中9000是自己配置的namenode埠號）。jobtracker在作業啟動之前會獲取這個uri列表，並將相應的檔案拷貝到各個tasktracker的本地磁碟上。（2）使用者使用distributedcache.getlocalcachefiles()方法獲取檔案目錄，並使用標準的檔案讀寫api讀取相應的檔案。

3) semijoin

semijoin，也叫半連線，是從分布式資料庫中借鑑過來的方法。它的產生動機是：對於reduce side join，跨機器的資料傳輸量非常大，這成了join操作的乙個瓶頸，如果能夠在map端過濾掉不會參加join操作的資料，則可以大大節省網路io。

實現方法很簡單：選取乙個小表，假設是file1，將其參與join的key抽取出來，儲存到檔案file3中，file3檔案一般很小，可以放到記憶體中。在map階段，使用distributedcache將file3複製到各個tasktracker上，然後將file2中不在file3中的key對應的記錄過濾掉，剩下的reduce階段的工作與reduce side join相同。

更多關於半連線的介紹，可參考：半連線介紹：

4) reduce side join + bloomfilter

在某些情況下，semijoin抽取出來的小表的key集合在記憶體中仍然存放不下，這時候可以使用bloomfiler以節省空間。

bloomfilter最常見的作用是：判斷某個元素是否在乙個集合裡面。它最重要的兩個方法是：add() 和contains()。最大的特點是不會存在false negative，即：如果contains()返回false，則該元素一定不在集合中，但會存在一定的true negative，即：如果contains()返回true，則該元素可能在集合中。

因而可將小表中的key儲存到bloomfilter中，在map階段過濾大表，可能有一些不在小表中的記錄沒有過濾掉（但是在小表中的記錄一定不會過濾掉），這沒關係，只不過增加了少量的網路io而已。

更多關於bloomfilter的介紹，可參考：

7. 請簡述mapreduce中combiner、partition的作用。

combiner：

有時乙個map可能會產生大量的輸出，combiner的作用是在map端對輸出先做一次合併，以減少網路傳輸到reducer的數量。

partition：

把map任務輸出的中間結果按照key的範圍劃分成r份(r是預先定義的reduce任務的個數)，劃分時通常使用hash函式，如：hash(key) mod r

這樣可以保證一段範圍內的key，一定會由乙個reduce任務來處理。

hadoop面試題整理一

hadoop面試題整理

hadoop面試題整理五

hadoop面試題整理七

hadoop面試題整理 一

hadoop面試題整理

hadoop面試題整理 五

hadoop面試題整理 七

相關推薦

hadoop面試題整理一

hadoop面試題整理五

hadoop面試題整理七